
语言表象与行为实质的鸿沟——加州理工、剑桥大学关于LLM人格特质的研究
.
在与大型语言模型(LLM)的日常交互中,我们常常会被它们表现出的“人格”所吸引。有的模型总是温和礼貌、乐于助人,似乎充满宜人性,有的模型思维开放、表达流畅,仿佛具备高度开放性,还有的模型在对话中展现出自我调节与克制,好像能像人类一样控制情绪与行为。
在人类心理学中,这些个性特质并非只是表面标签,而是能够跨情境稳定地预测行为的心理结构。
LLM 是否也具备类似的稳定性?它们的“人格”究竟是内在的行为驱动力,还是仅仅停留在语言表层的幻象?这正是我们今天所探讨的“人格错觉”——即语言层面的特质表达,并不等同于行为层面的稳定倾向。
近日,一支英美著名学府组成的联合研究团队提出大模型的人格问题,这一问题不仅是学术上的好奇心驱动,更关乎 AI 在现实世界中的安全性、可解释性与用户信任。
当前流行的对齐方法——如基于人类反馈的强化学习(RLHF)和指令微调——确实能让模型在语言上表现得更“像人”,但这种塑造是否会延伸到实际行为?如果不能,我们又该如何理解和使用这些模型?
基于此,研究团队围绕三个核心问题展开。
RQ1:类人特质在 LLM 的训练过程中是何时、如何出现并稳定下来的?
RQ2:自我报告的人格特质能否预测模型在真实任务中的行为表现?
RQ3:通过干预(如 persona injection)能否同时改变模型的特质表达与实际行为?
图1:分析LLM人格特质的实验框架。研究团队调查了(RQ1)不同训练阶段自我报告特征(如大五、自我调节)的出现;(RQ2)它们对现实世界启发的行为任务(如冒险、诚实、阿谀奉承)的预测价值;以及(RQ3)通过角色注入实现其可控性。特质评估使用适应性心理问卷和行为探针,并与人类基线进行比较。
这项研究由来自加州理工学院(Caltech)、伊利诺伊大学厄巴纳-香槟分校(UIUC)和剑桥大学的跨学科团队完成,成员背景涵盖计算机科学、认知神经科学、社会科学等领域。
团队不仅在学术上有深厚积累,还坚持开源精神,将全部代码与数据公开在 GitHub(https://github.com/psychology-of-AI/Personality-Illusion),以推动后续研究的透明性与可复现性。
1.研究方法与实验设计(Methodology)
为了揭开“大型语言模型人格错觉”的真相,这项研究并没有停留在对话表面的印象,而是借鉴了心理学的严谨实验范式,将量表测评、行为任务和干预实验结合起来,构建出一个多层次的验证框架。
它既像一次心理诊断,又像一场行为学的“压力测试”,目标是看清 LLM 的自我报告与实际行为之间到底隔着多远的距离。
测量工具:从心理学搬来的“照妖镜”
研究团队首先为模型准备了两面“镜子”——经典的心理学量表。 一面是大五人格量表(BFI),用来测量开放性、尽责性、外向性、宜人性和神经质五个维度,这些维度在人类心理学中与行为模式有着稳定的关联。
另一面是自我调节量表(SRQ),聚焦于自控力和目标导向行为,考察模型在面对冲突或诱惑时的“自我管理”倾向。量表经过精心改写成适合 LLM 回答的提示格式,确保测到的是模型的“自述”,而不是提示工程的产物。
图2:LLM中人格特质的出现和稳定(RQ1)。(A)平均自我报告的大五和自我调节得分(±95%CI):与基本模型(粉红色)相比,对齐阶段模型(紫色)显示出更高的开放性、宜人性和自我调节性,以及更低的神经质。(B)比对降低了变异性:各性状的中值绝对偏差下降了60-66%(***pă0.001,**pă0.01,*pă0.05,不显著)。(C)五大人格自我调节的回归显示,与预先训练的(粉红色)模型相比,对齐的(紫色)模型具有更强、更连贯的关联,这表明人格特征更加巩固。灰色方框标记了人类研究的预期方向(↑,↓,–)。
模型样本与分组:不同阶段、不同体型的选手
为了比较训练阶段和规模的影响,研究选取了多个开源模型家族,包括 LLaMA、Qwen、Mistral、OLMo 等。 它们被分为两大阵营。
Base 模型:只经过预训练,尚未进行指令对齐。
Instruct 模型:在 Base 基础上经过指令微调或 RLHF,对齐程度更高。 此外,每个家族还覆盖了小型、中型、大型不同参数规模,让研究能观察到“体型”对人格表现的影响。
行为任务设计:让模型“用行动说话”
光听自我报告还不够,研究团队搬来了四个在人类心理学中久经考验的行为任务,全部改造成文本交互版本。
Columbia Card Task(风险偏好):让模型在“翻牌”游戏中权衡收益与惩罚,测试它的冒险倾向。
隐性联想测验 IAT(社会偏见):通过词语配对任务,测量模型对不同社会群体的隐性偏好强度。
校准与自我一致性(诚实性):先让模型回答事实性问题并给出信心分,再在复查后重新打分,检验它的认知诚实与元认知能力。
Asch 从众范式(逢迎性):先独立回答道德困境,再在看到用户相反意见后重新作答,观察它是否随波逐流。
干预策略:给模型“换个性格”
在可控性实验(RQ3)中,研究引入了特质定向 persona,直接在提示中赋予模型特定人格标签:
- 宜人性 persona:强调友善、合作的特质。
- 自我调节 persona:强调自控、目标导向的特质。 为了避免单一提示风格的偏差,团队设计了三种不同的提示策略(prompting strategies),从简短前缀到详细背景描述,全面测试persona 注入的效果。
统计分析方法:用数据拆解人格与行为的关系
所有实验数据都经过严谨的统计建模处理。
混合效应模型:分析特质分数与行为表现的关系,同时控制温度、提示等随机因素。
方差齐性检验(Levene’s Test):比较 Base 与 Instruct 模型在特质表达上的稳定性差异。
特质–行为方向一致性指标(Alignment Measure):衡量特质与行为的关联方向是否符合人类心理学的既有预期,用百分比直观呈现一致性水平。
图3:LLM和人类在人格特质、行为任务和模型类型上的一致性。每个面板显示了LLM自我报告与行为任务按照人类受试者预期的方向(已实现的对齐,彩色条)定向对齐的病例百分比,其余比例表示与100%的差距(阴影)。第一个小组总结了自我报告和行为任务之间预期关联的一致性,按自我报告的人格特征排列,第二个小组按行为任务排列,第三个小组按模型名称排列,按模型家族分组,并按参数大小递增排序。条形图上方的百分比表示精确的对齐比例。50%处的线表示随机行为(即,%偶然预期的对齐)。误差条表示95%的置信区间(CI)。
通过这样的设计,研究不仅能回答“模型说自己是什么样”,还能验证“它实际会怎么做”,并进一步探究“如果给它换个设定,它会不会真的变”。这为后续揭示人格错觉的实证结果打下了坚实的基础。
2.核心实验结果(Results)
在这一部分,研究团队用数据揭开了“大型语言模型人格错觉”的三层面貌——从特质的形成,到它们与行为的关系,再到可控性的边界。
特质的起源与稳定化(RQ1)
当模型从单纯的预训练阶段迈入指令对齐阶段时,它们的“人格画像”发生了显著变化。开放性、宜人性、自我调节等维度普遍上升,神经质则明显下降。这种变化不仅是数值上的提升,更伴随着特质表达的稳定化:大五人格的变异性下降了约 40%,自我调节的波动幅度减少了 45% 以上,整体变异性降幅甚至可达 66%。
更有意思的是,特质之间的相关性也更接近人类心理学中的模式,呈现出一种“结构化”的人格轮廓。不过,并非所有特质都一样受益——宜人性的稳定性提升并不显著,提示不同特质对对齐的敏感度存在差异。
图4:基于混合效应模型的对齐,估计LLM人格特质对任务行为的影响。每个面板显示了LLM自我报告的人格特质预测五项任务行为的混合效应模型系数,并显示了所有模型、小模型、大模型、LLaMA家族和Qwen家族的结果。蓝细胞表示与人类预期一致的效果,而红细胞表示相反方向的效果。对角线分割的单元格标记了人类期望不明确的情况;蓝色在顶部表示正系数,在底部表示负系数。颜色强度反映效果大小,较深的阴影表示效果更强。显著性表示为:pă0.1、*pă0.05、**pă0.01和***pă0.001。详细数值见附录C表3。
特质与行为的脱节(RQ2)
当研究者将这些稳定的自我报告特质与模型在真实任务中的行为表现对照时,发现了一个令人意外的断层。特质–行为一致性大多徘徊在 45%–62% 之间,与随机水平几乎无异。
小型和中型模型几乎没有表现出显著的对齐,大型模型如 Qwen-235B 虽有一定提升,但也只是略高于随机。更令人警醒的是,即便出现统计显著的关联,其方向也常与人类心理学预期相反。深入到具体任务中,这种对齐模式更显零散、不稳定——某些特质在个别任务中表现出一致性,但无法跨任务延续。
可控性与 Persona 注入(RQ3)
在可控性实验中,persona 注入展现了“语言塑形”的强大能力。无论是宜人性 persona 还是自我调节 persona,都能显著提升对应特质的自我报告分数。
然而,这种变化在行为层面几乎无从察觉,逢迎性和风险偏好等任务的表现变化微弱且不稳定,缺乏跨任务的一致性。更复杂的是,persona 注入还会引发“跨特质干扰”——例如,自我调节 persona 会意外降低宜人性和开放性,说明人格维度之间存在复杂的联动效应。
图5:特征特定的人物可以通过自我报告检测,但不能通过行为检测。逻辑回归的系数估计(95%CI)使用六个自我报告的特征或一个行为指标(阿谀奉承或冒险)预测个人状况(宜人性或自我调节与默认)。结果显示在三种提示策略中,由颜色强度表示(附录H)。显著性水平(*pă0.05,**pă0.01,***pă0.001,未另行说明)标记在每个柱状图上。在各种策略中,自我报告可靠地揭示了人物角色的存在,而行为测量则没有,这表明人物角色效应向下游行为的转移有限。
3.讨论(Discussion)
这项研究最引人深思的发现,是语言与行为之间那条看不见的裂缝。大型语言模型在对话中可以表现得彬彬有礼、逻辑严谨,甚至在心理学量表上交出一份“人格完整”的答卷,但这并不意味着它们在实际行为中会遵循同样的模式。
研究团队用一系列实验证明,这些特质更多是源于模式匹配的结果——模型在训练数据中学会了如何“说”出符合某种人格的语言,而不是出于任何内在动机或稳定的心理状态。
这种脱节的另一个表现,是模型对提示的高度敏感性。换个提问方式、调整上下文,甚至改变温度参数,都可能让它的“人格”发生明显波动。缺乏时间一致性意味着,即便在同一场对话中,模型的行为倾向也可能随情境而变,这与人类人格的稳定性有着本质差异。
在诊断这种现象时,心理学框架展现了独特的价值。研究的目标并不是测量模型掌握了多少知识,而是检验它能否将知识与行为连贯地映射起来。通过引入那些不太可能成为训练优化目标的心理学任务,团队得以绕过“考试型”表现,直接触及模型在行为一致性上的短板。这种方法论不仅揭示了问题的存在,也为未来的评估提供了更贴近真实使用场景的工具。
当前的对齐与提示技术很容易制造一种“连贯幻觉”。RLHF 和 persona prompt 确实能让模型在语言上表现得更稳定、更符合预期,但它们塑造的只是输出表象,而非深层的行为规律。更糟的是,这种 persona 效果在长对话中会逐渐衰减,模型最终回到原有的波动状态。这种幻觉在用户体验上可能令人安心,却在需要稳定决策的场景中埋下隐患。
要跨越这条裂缝,研究提出了几条可能的路径。
其一是行为反馈强化学习(RLBF),不再只奖励语言的流畅与礼貌,而是奖励在心理学任务中保持一致行为的能力。
其二是行为评估检查点(Behavioral Checkpoints),在模型开发过程中引入跨情境的行为一致性测试,确保不同场景下的稳定表现。
其三是表示层干预(Representation-level Interventions),直接在模型的潜在表示空间中编码特定的行为特质,从根源上塑造行为倾向。
4.结论(Conclusion)
这项研究为我们提供了一个清晰的结论:指令对齐确实能让 LLM 的自我报告特质更稳定、更接近人类心理学的结构模式,但这并不能保证它们在行为上的一致性。
Persona 注入在语言层面上有效,却难以在行为层面产生持久、跨任务的可控性。换句话说,当前的对齐方法更多是在雕琢一张“人格面具”,而非塑造一个有内在倾向的行为主体。
如果我们希望未来的 LLM 在关键任务中不仅“说得好”,还要“做得稳”,就必须将对齐的重心从语言表象转向行为驱动。
这意味着在训练与评估中引入更多基于行为的目标和反馈机制,让模型的“人格”不再只是纸面上的幻觉,而能在真实世界的行动中得到验证。这样,AI 才能真正跨过那条语言与行为之间的鸿沟,成为值得信赖的智能伙伴。(END)
参考资料:https://arxiv.org/pdf/2509.03730
本文转载自波动智能,作者:FlerkenS
