
Anthropic 大模型人格向量研究:解码大模型"大脑"中的人格特征
Anthropic最新研究揭示了如何在AI"大脑"中追踪特定的"人格"特征(称为"人格向量"),并展示了如何识别和控制可能导致大模型表现出恶意或不安全行为的因素。
1、大模型内部发生了什么?
有时在与大模型对话时,它会突然表现异常——过度奉承、事实错误,甚至恶意行为。这项研究旨在理解这种现象的原因并找到解决方案。
虽然AI模型并不像人类那样真正拥有人格,但在特定提示或训练数据影响下,它们有时会表现得像有人格一样。
核心发现:人格向量
研究团队发现,"邪恶"、"阿谀奉承"或"幻觉"等特定行为在模型的激活空间中表现为线性方向,他们称之为人格向量。
可以这样理解:通过观察模型在不同情况下的反应,可以将这些行为映射到模型"大脑"中的特定区域。一旦找到这些特征的位置,就能监控甚至控制它们。
图片
2、工作原理
人格向量的生成
1.用相同问题分别测试模型,但使用相反的系统提示(如"表现邪恶" vs "表现有帮助")
2.提取每次运行的隐藏激活并计算平均值
3.将"有帮助"的平均值从"邪恶"的平均值中减去
4.结果就是在4096维空间中的一个方向——这就是"邪恶"的人格向量
图片
图片
实际应用
这个人格向量就像一个控制旋钮:
•推理时:减去向量可以减弱特定特征
•训练时:添加少量向量可以"疫苗化"模型,让它抵抗这些特征
•监控:实时观察模型是否偏向不良人格
图片
3、三大核心功能
1.监控:观察模型人格在对话或训练过程中的变化
2.控制:在开发或训练过程中减少或控制不良人格变化
3.预防:识别推动这些变化的训练数据
4、技术细节
监控能力
当系统提示逐渐鼓励某种特征时,在匹配向量上的投影会首先上升。在测试中,最终提示标记的投影与后续行为之间的相关性约为0.75-0.83,这意味着开发者可以在AI回复之前就预警潜在问题。
控制方法
•推理时干预:减去向量可减少特定特征,但也会略微影响一般能力
•训练时预防:在每步添加少量特征向量,让模型产生"免疫力",平均而言对MMLU准确率几乎无影响
特征解析
通过稀疏自编码器,团队将抽象的"邪恶"向量分解为具体概念,如侮辱性语言、故意残忍和黑客内容等,使得每个行为都可以单独监控或阻止。
5、意义与价值
这项研究为AI安全提供了重要工具:
•预警系统:在问题行为出现前进行检测
•精确控制:针对性地调整特定人格特征
•训练优化:提前识别和过滤问题训练数据
人格向量技术让大模型的"性格"变得可见、可测量、可控制,为构建更安全、更可靠的大模型系统奠定了基础。
标题:Persona vectors: Monitoring and controlling character traits in language models
链接:https://www.anthropic.com/research/persona-vectors
本文转载自AI帝国,作者:无影寺
