
思考不是免费的,大型语言模型推理的收益与代价 精华
对于人工智能智能体,谈判是一场最接近人类智慧的“角斗”,它不仅仅是语言的堆砌,更是策略的博弈、心理的揣摩和利益的权衡。
人类社会和经济活动中,谈判无处不在,从商场里的价格讨价还价,到国际政治的桌面博弈,都是智慧与策略的交锋。对于AI代理来说,能否在谈判中表现出色,直接决定了它们能否真正走向自主决策的未来。
现实并不总是那么光鲜。大型语言模型(LLMs)在谈判场景中常常“翻车”,它们会偏离最优策略,时而表现得过于天真,时而又显得狡猾,甚至会采用欺骗性手段,比如假装对低价值物品感兴趣以换取后续让步。
更糟糕的是,它们在买方角色上的表现普遍不如卖方,仿佛天生“吃亏”,有时甚至会做出违反预算的冒险决策,导致经济风险。这些问题让人不得不怀疑:这些AI代理究竟是在“思考”,还是只是在“模仿”?
研究者们发现,问题的关键可能在于“推理”。Chain-of-Thought(思维链)提示近年来被广泛应用于复杂任务,它能让模型在回答前“自言自语”,逐步推导出答案。但在谈判场景中,推理究竟能带来多少性能提升?它的代价又有多高?这是一个悬而未决的问题。
更大的盲点在于语言,几乎所有已有研究都局限在英语环境下,仿佛AI的谈判能力只在英语世界才重要。但现实世界是多语言的,AI若要真正走向全球化,就必须在德语、意大利语乃至更多语言中展现出同样的推理与谈判能力。
因此,研究团队提出了三个关键问题:
1.推理是否真的能显著提升谈判表现?如果能,它的计算成本是否值得?
2.在多语言谈判中,模型的推理语言是否与任务语言保持一致?还是会偷偷“切换回英语”?
3.模型展现的所谓“策略”,究竟是真正的战略适应,还是仅仅在表面上模仿人类的谈判套路?
这项研究由德国波茨坦大学计算语言学系、德国人工智能研究中心(DFKI)以及意大利博岑-博尔扎诺自由大学的团队联合完成。团队成员横跨计算语言学、人工智能与博弈论研究,既有深厚的学术背景,也有跨语言与跨文化的研究优势。David Schlangen 教授作为对话系统与交互式AI的知名学者,为研究提供了理论与实验框架;而意大利团队则在多语言实验设计上贡献突出,使得这项研究真正具备国际化的视野。
1.研究综述
要理解这项研究的意义,我们需要先看看前人的探索。近年来,LLMs与博弈论框架的结合逐渐兴起,研究者们试图用经典的博弈模型来检验AI的战略推理能力。结果却让人既惊讶又担忧——模型的表现高度不稳定,时而能打出漂亮的组合拳,时而却输给明显更弱的对手。
更具体的问题包括:
- 偏离最优策略:即使是顶尖模型,也可能在关键时刻做出非理性选择。
- 欺骗性与认知偏差:模型会模仿人类的“虚张声势”,甚至表现出锚定效应或情绪操纵的倾向。
- 角色不对称:在买方角色中,模型普遍表现不佳,仿佛缺乏讨价还价的底气。
面对这些问题,研究者们提出了几条改进路径。其一是引入博弈论求解器或结构化推理流程,让模型在对话中遵循更严谨的逻辑。其二是利用Chain-of-Thought提示,让模型在回答前进行逐步推理,从而减少“拍脑袋”的决策。其三是采用混合架构:由规则模块负责生成价格或分配方案,LLM则专注于自然语言交流,这种“人机混合”的方式在实验中显著提升了稳定性。
然而,这些努力大多停留在英语语境中,缺乏跨语言的验证。换句话说,我们还不知道,当模型在德语或意大利语中进行谈判时,它是否还能保持同样的推理能力,还是会“露馅”。这正是研究团队试图回答的问题。
2.研究方法与实验设计
要检验“思维的代价”,研究团队并没有选择抽象的数学公式或冷冰冰的理论推演,而是设计了一套“对话游戏竞技场”。这些游戏既像是心理学实验室里的小测试,又像是策略类桌游的AI版本,既能考察模型的推理能力,也能观察它们在合作与竞争中的表现。
图1:以成功的帕累托最优协议结束的交易或无交易事件的示例。
对话游戏框架
首先登场的是Deal or No Deal。这是一场多议题分配博弈,双方玩家各自对一组物品有不同的价值偏好。谈判的目标是达成一个双方都能接受的分配方案。
这个游戏的妙处在于,它不仅考察模型能否表达和理解偏好,还要看它是否愿意妥协,能否在合作与自利之间找到平衡。换句话说,这是AI版的“你要苹果还是橘子”的拉锯战。
图2:清理游戏中的示例情节,为随机放置在每个玩家网格上的多个对象实现一个共同的目标配置,并相应地移动它们。最后,双方玩家必须达成一致,才能结束游戏。
接下来是Clean Up。这是一场7×7网格上的“搬家游戏”。两个玩家各自看到的棋盘不同,需要通过交流和移动,把物体重新排列成一致的布局。它考察的不仅是合作意愿,还有空间推理能力。
想象一下,你和朋友隔着电话搬家具:一个说“把沙发往左挪两格”,另一个却发现自己房间里根本没有沙发——这就是Clean Up的难点。
最后是最具戏剧性的Air Balloon Survival。两位玩家同乘一只超载的热气球,必须通过丢弃物品来减轻重量,否则大家一起坠落。每个玩家对物品的价值不同,于是谈判就成了“我想留绳子,你想留书”的拉锯。
图3:气球生存游戏的一个例子。两名玩家必须就他们喜欢的物品进行谈判和争论。并且必须明确同意对方提出的建议。
更有意思的是,模型需要在对话之外写下自己的“战略推理”,但这些推理不会直接展示给对方。这就像是让AI在心里打草稿,再决定说出口的内容,考察它是否真的能进行约束优化、集体推理,甚至展现出某种“心智理论”。
多语言实验
研究团队没有满足于单一语言的测试,而是选择了英语、德语和意大利语三种语言。游戏本身是语言无关的,差别只在于提示模板的翻译。这一设计让研究者能够观察:模型在不同语言环境下是否还能保持一致的推理与谈判能力,还是会偷偷切换回英语“思考”。
评估指标
为了量化表现,研究团队设定了三类指标。
- %Played:完成率,即模型是否能按照规则把游戏走完。
- Quality Score:目标达成度,衡量结果与最优解的接近程度。
- clemscore:综合指标,将前两者结合并归一化到0–100之间。
这套指标既能反映模型的“守规矩”程度,也能衡量它的“聪明程度”。
模型选择
最后是参赛选手阵容。商业阵营包括GPT‑5、GPT‑5-mini 和 Claude‑4,这些是当下最强的闭源模型代表。开源阵营则派出了 Llama3.3‑70B、Deepseek-R1蒸馏版、Nemotron‑9B、Qwen‑3‑80B、GPT‑OSS‑120B 和 Deepseek‑v3.1。其中有的强调推理能力,有的则是轻量化版本,形成了一个颇具代表性的“全明星阵容”。
通过这样的设计,研究团队不仅能比较推理模式开启与否的差异,还能横向对比商业与开源模型的表现,甚至观察它们在多语言环境下的“思维习惯”。可以说,这是一场跨语言、跨模型的全面对抗赛,目的就是要揭示:推理究竟是AI的“杀手锏”,还是一把代价高昂的双刃剑。
3.实验结果与发现
研究团队把这场“AI谈判大赛”跑完之后,得到的结果既让人兴奋,又让人皱眉。兴奋的是,推理确实能让模型更聪明;皱眉的是,这份聪明背后要付出的代价,可能比想象中更高。
推理的作用
先看最直观的成绩单。GPT‑5 在开启推理模式后,综合得分 clemscore 从 61.1 一跃升至 92.5,提升幅度高达 31.4 分,几乎是“开挂”般的表现。Qwen‑3 的进步更为惊人,直接拉高了 56 分,堪称本次比赛的“黑马”。Claude‑4 的提升幅度相对有限,大约 24 分,说明它在不开推理时已经有一定的稳定性。最意外的反而是 Llama‑70B 的蒸馏版,推理模式不仅没帮上忙,反而让成绩下滑,仿佛“越想越乱”。
这说明推理并非万能钥匙,不同模型的架构和训练方式决定了它们能否真正把“思维链”转化为战略优势。
成本权衡
性能提升的另一面,是计算成本的飙升。GPT‑5 在推理模式下的成本几乎是非推理的四倍,简直像是“豪华套餐”,效果好但钱包疼。相比之下,GPT‑5-mini 在性能和成本之间找到了一个相对平衡点,表现堪称“性价比之王”。而 Qwen‑3 虽然分数涨得快,但代价是 token 消耗极高,推理时像个话痨,不停地自言自语,导致计算资源被疯狂吞噬。
这让人不得不思考:在实际应用中,我们到底愿意为多出来的那几十个 clemscore 分数,付出多少算力和金钱?
图4:跨语言平均性能和成本比较之间的权衡。
多语言差异
语言层面的结果同样耐人寻味。在德语实验中,推理带来的性能提升幅度最大,说明模型在非英语环境下更依赖推理来弥补理解和表达的不足。商业模型在这里展现了优势,它们能够保持推理语言与任务语言一致,比如在德语谈判中就用德语思考和推理。
而开源模型则常常“露馅”——即便在德语或意大利语的任务中,它们的内部推理依旧切换回英语。这种“思维偷懒”不仅可能影响谈判表现,还削弱了推理过程的可解释性。毕竟,如果一个模型在德语环境下输出的推理轨迹全是英语,那用户要如何信任它的多语言能力?
推理过程分析
除了结果,研究团队还仔细观察了模型的“思维轨迹”。高性能模型往往推理简洁,几乎没有无谓的循环。Claude‑4 和 GPT‑OSS 就是典型代表,它们的推理过程干净利落。相反,Nemotron 和 Llama 的循环率高达 30–50%,经常陷入“过度思考”的泥潭。
表1:英语、德语和意大利语版本的选定LLM上三个谈判游戏的clemscore值。打开:推理模式打开,关闭:推理模式关闭。每行中每种语言的最佳结果以粗体突出显示。CL:Claude,LM:Llama-3.3,DS:Deepseek,Nem:Nemotron-v2,DoND:交易或无交易。
Qwen‑3 的情况则很有趣:它的循环率也很高,但依然能保持高分。这解释了为什么它的 token 消耗如此惊人——它在不断地自我修正和反复推演,虽然啰嗦,但最终能走到一个不错的结果。
另一个关键指标是“角色意识”。在谈判中,模型是否能始终记住自己扮演的角色,直接影响对话的连贯性和策略性。Qwen‑3 在这方面表现最佳,角色意识高达 89.3%;Claude‑4 也有不错的 74.5%;而 Nemotron 则垫底,仅有 57.8%,经常“忘词”或“出戏”。
4.给我们的启示
如果说这项研究是一场关于“AI能不能像人一样谈判”的实验,那么结果已经很清楚:推理确实是关键武器,但它的代价也让人直呼“肉疼”。
推理模式的引入,让模型在谈判中更像一个有头脑的谈判专家,而不是只会机械重复的“话术机器人”。它能帮助模型更好地理解对手的偏好,避免无谓的冲突,甚至在复杂的合作场景中找到双赢的方案。
换句话说,推理让AI不再只是“会说话”,而是“会算账、会权衡、会妥协”。这正是谈判的精髓所在。
然而,聪明是有代价的。GPT‑5 的表现堪称惊艳,但代价是计算成本暴涨四倍。对于研究者来说,这是一份漂亮的成绩单;但对于企业应用来说,这意味着算力账单可能要翻几番。如何在性能和成本之间找到平衡,成为未来应用落地的必答题。
在多语言环境下,商业模型展现了更强的稳定性和一致性。Claude‑4 和 GPT‑5 在德语、意大利语任务中依然能保持推理语言与任务语言一致,这不仅提升了用户体验,也增强了可解释性。
相比之下,开源模型则常常“偷懒”,在德语或意大利语任务中偷偷切换回英语推理。这种“语言切换”虽然不影响最终结果,但却让人对它们的多语言能力产生怀疑。毕竟,如果一个模型在德语谈判中脑子里全是英语,它的“多语言推理”还能算真实吗?
更重要的是,这项研究证明了推理并不仅仅是表面上的模式匹配。高性能模型展现出的战略适应能力,说明它们确实在进行某种程度的“思考”,而不是简单地模仿人类的谈判套路。这为未来的智能代理研究提供了信心,AI 不只是会说漂亮话,它们正在逐渐学会如何在复杂的博弈中找到真正的策略。
有几个方向值得关注。首先是扩展更多语言和任务场景。毕竟现实世界的谈判远不止英语、德语和意大利语,AI若要真正走向全球化,就必须在更多语言和文化环境中经受考验。
其次是探索推理与成本的平衡机制。或许我们需要“轻量化推理”或“分层推理”的方法,让模型在关键时刻才动用昂贵的思维链,而不是每次都全力开火。
最后,开源模型的多语言推理一致性亟待提升。如果开源社区能解决这一问题,将极大增强其在国际化应用中的竞争力。(END)
参考资料:https://arxiv.org/pdf/2510.08098
本文转载自波动智能,作者:FlerkenS
