
大模型对情感刺激的反应与人类高度一致,这为构建更具同理心的人工智能系统奠定基础
我们从孩提时代识别母亲的微笑,到成年后解读同事的口风,情绪渗透在我们日常的每一次决策与交互中。
人类对情绪刺激的敏锐度不仅驱动社交关系的建立,也影响学习、记忆和创造力的发挥。正是情绪这一无形却强大的力量,引领我们对世界做出立体而细腻的感知。
随着大型语言模型(LLM)在自然语言理解与生成领域的飞速进展,我们开始怀疑这个问题,这些基于海量文本训练而成的人工智能,能否在“情绪测量”这一高度主观的任务中,重现人类评判的细微差别?
换言之,当我们请模型为一张图片或一句话打分,它给出的“情感读取”究竟是机械模拟,还是足够贴近人类内心的真实反应?
深入回答这一问题,不仅关乎学术界对智能本质的探讨,也直接影响人机交互、情感计算以及AI在教育、心理健康等场景中的落地应用。
若模型能够可靠地捕捉和量化情绪,就能为虚拟助理提供更具同理心的回应,为交互式教学系统设计更精准的反馈,为心理辅导平台建立更安全的情绪预警。
这项研究由约翰霍普金斯大学应用物理实验室(APL)带头,联合认知心理学家、计算语言学专家与情感计算工程师共同发起。团队背靠APL的IRAD项目支持,既拥有深厚的AI建模经验,也具备严谨的实验设计与人类行为测量能力,确保研究既具有前沿性,也符合心理学领域的信效度标准。
1.综述
人类情绪的组织模式长期以来主要沿两条脉络展开。其一是离散情绪理论,源自Ekman等人的经典研究,将快乐、愤怒、悲伤、恐惧和厌恶视为五种基础情绪。
这些情绪在面部表情、生理反应和神经机制上各自具备相对独立的标志,对应着人类在面临不同生存挑战时的基本应对策略。
另一条脉络则是二维情绪模型,将感受映射到“效价”(valence,从负面到正面)和“唤醒度”(arousal,从平静到激活)两个连续维度之上。这一框架强调情绪体验的连续性与交互作用,能够解释为何一段充满张力的交互既让人紧张(高唤醒度),同时也伴随愉悦或不安(正负效价)等复合体验。
在AI情感评估领域,已有大量文本情感分析工具和面部表情识别算法,但它们往往依赖于监督学习或特定标注体系,缺少对多模态刺激(如图像与文字并行)与人类标准评价的大规模系统比对。
少数研究尝试让深度神经网络模拟人类情绪评分,却大多局限于单一数据集或单一框架,尚未形成对比不同模型和评价维度的全景式洞察。
约翰霍普金斯大学应用物理实验室的研究创新之处在于:
首次将最前沿的LLM(包括GPT-4o、Gemma2-9B、Llama3-8B等)作为“虚拟评审”,对图像和文本两类多模态刺激进行评价。
将传统的五类离散情绪与二维效价—唤醒度框架并行应用,直接对比模型与人类在不同结构下的对齐度。
通过多次随机初始化运行,量化模型内部一致性,与人类评委的个体差异进行横向比照,从而揭示AI在情感评估任务中的稳定性优势与潜在局限。
2.实验设计与方法
研究首先汇集了多种经人类大规模标注的情绪数据集,覆盖文字与图像两种模态。图像部分主要来自 OASIS 所呈现的情感场景,以及 Kurdi、Lozano & Banaji (2017) 与 NAPS (Marchewka等, 2014) 等公开图像库。
文字材料则采用 ANEW (Bradley & Lang, 1999) 与 Stevenson等 (2007) 提供的英语情感词汇,并确保所有条目均有人类对唤醒度和效价的原始评分。
在评分范式上,实验室并行对比两种主流情绪组织结构。一种是经常用于面部表情与语义分析的五类离散情绪:快乐、愤怒、悲伤、恐惧、厌恶,每项打分尺度从 1(完全没有)到 5(极度强烈)。
另一种则是二维连续尺度:效价(从负面到正面)与唤醒度(从平静到激活),更贴近情绪体验的连贯性框架。
选型了最具代表性的五款大型语言模型进行评测,包括 GPT-4o、轻量化版本 GPT-4o-mini,及 Gemma2-9B、Llama3-8B 与 Solar 10.7B。
每次实验以相同的提示模板复刻人类原始研究句式,例如“请对 ‘respectful’ 进行快乐评分:1 = 一点也不,5 = 极度强烈。仅返回数字,并请使用量表全范围。”模型温度统一设置为 1.0,以保证生成结果的多样性与稳定性。
为了模拟真实评审团的多样性,实验室对每款模型独立初始化 20 次,视为 20 名“虚拟参与者”。在数据处理阶段,所有触发内容过滤器的条目被剔除,随后计算每个项目在各维度上的平均评分与标准差。
比较模型与人类平均评分时,采用皮尔逊相关系数衡量线性对齐度;对比评分分散程度,则使用 Wilcoxon 秩和检验评估模型内部与人类参与者的标准差差异。
3.实验结果
在 OASIS 图像数据集上,GPT-4o 对唤醒度的评分与人类评分达成了 0.81 的高相关,对效价的相关度更高,达到 0.89(均 p < 0.001)。
二者在二维空间中共同呈现典型的 V 形分布,表明模型捕捉到了人类对高唤醒和低唤醒图像在正负效价上的一致判断。
放眼五类离散情绪框架,GPT-4o 与人类在快乐、愤怒、悲伤、恐惧和厌恶五个维度上的 Pearson 相关系数均落在 0.89 至 0.93 之间,实现了更高的对齐度。相比之下,二维模型中唤醒度评分的一致性相对偏低,凸显出离散情绪类别更具可辨别性。
图1:情绪刺激的人类和LLM行为评级总结。
A到C:GPT-4o和OASIS数据集中图像的唤醒和效价人类评级。GPT-4o觉醒评分(r=0.81)和效价(r=0.89,两者均p<0.001)与人类评分高度相关(A,蓝线表示线性拟合),并产生了广泛的类似的V形分布(C)。
然而与人类相比,GPT-40参与者的反应更为一致评分(B,Wilcoxon秩和检验,比较项目间反应的标准差,W>660p<0.001)。相似GPT-4o模型在数据集和情绪评定量表(D,所有LLM人类总结文本、ANEW和图像、OASIS和NAPS、数据集的评分比较,均p<0.001)。
当将视角扩展到所有五款 LLM 及 ANEW 文本、OASIS与 NAPS 图像数据时,同样观察到显著的人机一致性(全部 p < 0.001)。虽然各模型在绝对相关度上略有差异,但整体趋势一致:在离散情绪维度上普遍优于二维框架。
值得注意的是,所有 LLM 的内部评分标准差均显著低于人类(Wilcoxon 检验 p < 0.001),这意味着模型在不同初始化运行中表现更为同质。相比之下,人类评审者之间的评分分散度更高,反映了生物智能固有的个体差异与主观性。
4.讨论与洞见
大型语言模型(LLM)在情绪评估上与人类表现出惊人的一致性,背后或源于其在海量文本语料中对情感词汇与语境的深度捕捉。
模型通过多任务预训练,学习了不同场景下词语的情感分布,进而在面对图像描述或情感词汇时,能够激发出与人类评审相似的感性判断。这种“语义共鸣”不仅依赖于统计关联,更是对人类情感表达模式的高度模拟。
五类离散情绪框架胜过二维模型,主要因为它为情绪提供了更清晰的边界。快乐、愤怒、悲伤、恐惧和厌恶五个基本类别,从进化生物学和面部表情研究中都获得了强力支撑。
离散标签使模型在区分不同情绪时拥有更明确的目标,而二维空间中的唤醒度与效价刻度则较为抽象,容易产生语义重叠和判断模糊。
唤醒度评分一致性相对偏低,反映了当前 LLM 在捕捉情绪力度与生理激活信息时的局限。模型主要基于语言描述进行推断,而文本往往缺乏对心跳加速、肌肉紧张等生理信号的直接描写。
这就导致在面对高唤醒或低唤醒的非语言化刺激时,模型容易依赖常见表达,难以精准还原人类的激活体验。
模型内一致性更高却也暴露出多样性不足的权衡。LLM 的多次初始化运行标准差极小,体现了算法的稳定性与可复现性优势;但与此同时,它们缺乏人类评审者固有的主观差异和情感微妙波动。
这意味着在一些需要个性化、富有人性细节的应用场景中,纯粹依赖 LLM 可能导致“千篇一律”的机械式情感反馈。
这些发现为我们理解生物智能与人工智能在情感表征上的差异提供了新视角。人类情绪既是心身状态的投射,又包含文化、个人记忆与即时生理感受的复杂融合,而 LLM 则更像一本百科全书,凭借大规模统计关联对外部世界做出近似判断。
未来的研究或许需要将二者优势结合,通过多模态数据和跨学科方法,弥补模型在生理激活层面的空白。
5.应用前景与挑战
具备情绪感知能力的 LLM 正催生一批前所未有的应用机遇。在虚拟助理领域,它们能够基于用户的语气与情绪词汇,实时调整对话风格,实现更具同理心的交互。
在在线教育中,模型可以通过对学生作文或口语的情绪解读,定制个性化反馈,帮助学习者保持积极心态;在心理辅导初筛环节,LLM 可辅助识别可能的情绪风险,为专业人员提供判别线索。
多模态人机交互场景为情绪感知 LLM 打开了新的落地路径。结合视觉、音频与文本输入,应当开发“情绪地图”——实时提取面部表情、语调变化和关键词情感分值,再经由情绪推理模块,生成对应的应答策略。这样不仅提高了系统对情绪的敏感度,也能让用户体验更自然、真实。
与此同时,隐私、安全与伦理考量不容忽视。情绪数据本身具有高度敏感性,未经用户同意的采集或分析,容易侵犯个人隐私。为了避免滥用或不当归档,必须在技术实现中嵌入差分隐私等保护机制,并制定透明的用户授权流程。此外,情绪识别中的算法偏见也需持续监测,防止对特定人群产生误判或歧视。
反观未来,只有在技术能力、伦理规范与法规监管三者之间找到平衡,具备情绪感知的 LLM 才能真正成为可信赖的数字伙伴,为教育、医疗、客服乃至艺术创作等领域带来深远变革。(END)
参考资料:https://arxiv.org/pdf/2508.14214
本文转载自波动智能,作者:FlerkenS
