Anthropic 大模型人格向量研究：解码大模型"大脑"中的人格特征

sbf_2000

发布于 2025-8-4 00:15

浏览

0收藏

Anthropic最新研究揭示了如何在AI"大脑"中追踪特定的"人格"特征（称为"人格向量"），并展示了如何识别和控制可能导致大模型表现出恶意或不安全行为的因素。

1、大模型内部发生了什么？

有时在与大模型对话时，它会突然表现异常——过度奉承、事实错误，甚至恶意行为。这项研究旨在理解这种现象的原因并找到解决方案。

虽然AI模型并不像人类那样真正拥有人格，但在特定提示或训练数据影响下，它们有时会表现得像有人格一样。

核心发现：人格向量

研究团队发现，"邪恶"、"阿谀奉承"或"幻觉"等特定行为在模型的激活空间中表现为线性方向，他们称之为人格向量。

可以这样理解：通过观察模型在不同情况下的反应，可以将这些行为映射到模型"大脑"中的特定区域。一旦找到这些特征的位置，就能监控甚至控制它们。

Anthropic 大模型人格向量研究：解码大模型"大脑"中的人格特征-AI.x社区图片

2、工作原理

人格向量的生成

1.用相同问题分别测试模型，但使用相反的系统提示（如"表现邪恶" vs "表现有帮助"）

2.提取每次运行的隐藏激活并计算平均值

3.将"有帮助"的平均值从"邪恶"的平均值中减去

4.结果就是在4096维空间中的一个方向——这就是"邪恶"的人格向量

Anthropic 大模型人格向量研究：解码大模型"大脑"中的人格特征-AI.x社区图片

实际应用

这个人格向量就像一个控制旋钮：

•推理时：减去向量可以减弱特定特征

•训练时：添加少量向量可以"疫苗化"模型，让它抵抗这些特征

•监控：实时观察模型是否偏向不良人格

Anthropic 大模型人格向量研究：解码大模型"大脑"中的人格特征-AI.x社区图片

3、三大核心功能

1.监控：观察模型人格在对话或训练过程中的变化

2.控制：在开发或训练过程中减少或控制不良人格变化

3.预防：识别推动这些变化的训练数据

4、技术细节

监控能力

当系统提示逐渐鼓励某种特征时，在匹配向量上的投影会首先上升。在测试中，最终提示标记的投影与后续行为之间的相关性约为0.75-0.83，这意味着开发者可以在AI回复之前就预警潜在问题。

控制方法

•推理时干预：减去向量可减少特定特征，但也会略微影响一般能力

•训练时预防：在每步添加少量特征向量，让模型产生"免疫力"，平均而言对MMLU准确率几乎无影响

特征解析

通过稀疏自编码器，团队将抽象的"邪恶"向量分解为具体概念，如侮辱性语言、故意残忍和黑客内容等，使得每个行为都可以单独监控或阻止。

5、意义与价值

这项研究为AI安全提供了重要工具：

•预警系统：在问题行为出现前进行检测

•精确控制：针对性地调整特定人格特征

•训练优化：提前识别和过滤问题训练数据

人格向量技术让大模型的"性格"变得可见、可测量、可控制，为构建更安全、更可靠的大模型系统奠定了基础。

标题：Persona vectors: Monitoring and controlling character traits in language models
链接：https://www.anthropic.com/research/persona-vectors

本文转载自AI帝国，作者：无影寺

标签

Anthropic

大模型

线性方向

相关推荐

从Claude 3中提取数百万特征，首次详细理解大模型的「思维」

轻薄滴假象 • 3828浏览 • 0回复
【LLM】对大语言模型微调优化的研究

sbf_2000 • 4830浏览 • 0回复
论文解读：《大语言模型推理算法：从解码到元生成》

智能交互引擎 • 3225浏览 • 0回复
NeurIPS'24：针对时序预测中时间戳特征的研究

海因斯DK • 4863浏览 • 0回复
微软、Anthropic正在拉满大模型的情绪价值

51CTO技术栈 • 3169浏览 • 0回复
再谈大模型向量，由向量检索引起的思考

AI探索时代 • 2940浏览 • 0回复
大模型检索增强生成之向量数据库的问题

AI探索时代 • 3272浏览 • 0回复
Anthropic最新研究，Claude学会“演戏”了！

NLP前沿1 • 4147浏览 • 0回复
大模型的嵌入——Embedding与向量——Ve ctor

AI探索时代 • 4623浏览 • 0回复
大模型Transformer架构之编码器(Encoder)和解码器(Decoder)

AI探索时代 • 5882浏览 • 0回复
大模型底座之向量化，以及向量化的原理

AI探索时代 • 6868浏览 • 0回复
大模型之神经网络特征提取综述

AI探索时代 • 3616浏览 • 0回复
大模型之嵌入与向量化的区别是什么？

AI探索时代 • 3236浏览 • 0回复
大模型前置处理之——特征提取

AI探索时代 • 3857浏览 • 0回复
融合语言模型的多模态大模型研究

zhcs333 • 2975浏览 • 0回复
大模型展示的推理过程可信吗？Anthropic这项研究给出了一些答案

Syrupup • 2037浏览 • 0回复
大模型的黑化开关！Anthropic团队新作：大模型的人格变量，终于被人类找到了！

51CTO技术栈 • 989浏览 • 0回复
Anthropic最新研究Persona vector人格向量

熵减AI • 1043浏览 • 0回复
语言表象与行为实质的鸿沟——加州理工、剑桥大学关于LLM人格特质的研究

xuxiangda • 730浏览 • 0回复

sbf_2000

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

Anthropic 大模型人格向量研究：解码大模型"大脑"中的人格特征

1、大模型内部发生了什么？

核心发现：人格向量

2、工作原理

人格向量的生成

实际应用

3、三大核心功能

4、技术细节

监控能力

控制方法

特征解析

5、意义与价值

目录