为什么AI总猜不中你的心意?4K+场景实验揭开AI协作的"三宗罪" 精华

发布于 2025-10-14 00:09
浏览
0收藏

为什么AI总猜不中你的心意?4K+场景实验揭开AI协作的"三宗罪"-AI.x社区图片

在人工智能快速发展的今天,我们经常惊叹于大型语言模型(LLMs)在推理和工具使用方面的惊人能力。然而,你是否曾有过这样的经历:与AI助手交流时,感觉它虽然能回答问题,却似乎并不真正理解你的需求和偏好?这种"技术能力强大但用户理解不足"的现象。

研究背景:当AI遇上"难以捉摸"的用户

大型语言模型(LLMs)在复杂推理、代码生成和解决高级数学问题方面已经展现出令人印象深刻的能力。通过工具使用和工具创建,这些模型甚至能够检索信息并与外部环境(包括数据库、网页和游戏)进行交互,获得了自主执行任务的代理能力。

然而,现有代理环境往往忽视了一个关键维度:用户的作用。尽管在任务执行方面表现出色,但代理由于无法理解、适应并与任务发起者协作,常常无法满足真实用户需求。当前的评估主要关注工具使用和任务执行,很少考虑代理是否有效解释并符合用户潜在且不断变化的意图。

这引出了研究的核心问题:我们如何从用户中心的角度评估代理?

为了回答这个问题,研究人员首先考察了用户通常如何传达目标。人类沟通本质上是一种联合活动,意义是通过互动共同构建的。此外,语言本质上具有模糊性,使用户难以在单次互动中完全清晰地传达其意图。因此,用户指令往往具有三个核心特征:

  1. 未指定性:用户经常在完全制定目标之前就发起请求
  2. 增量性:意图在互动过程中逐渐出现和演变
  3. 间接性:由于社会或战略原因,用户可能掩盖或软化其真实意图

围绕这些特征,研究团队提出了UserBench,这是一个以用户为中心的环境,旨在促进代理与展示这些特征的用户进行有意义的多轮互动。

UserBench:模拟真实用户交互的评测环境

UserBench建立在标准Gymnasium框架之上,专注于旅行规划任务,其中用户以隐含方式逐渐揭示其偏好。与先前工作相比,UserBench具有显著更多样化和更基础的用户偏好集合,每个偏好都与精心策划的隐含表达配对,并支持带有注入噪声和成本意识的工具增强搜索。

数据收集与构建

为什么AI总猜不中你的心意?4K+场景实验揭开AI协作的"三宗罪"-AI.x社区

图1:UserBench构建流程图

UserBench的构建流程如图1所示,研究团队首先确定了旅行规划的五个核心方面:航班、酒店、公寓、租车和餐厅。数据收集遵循三个关键原则:真实性、多样性和隐含性。

首先,通过策划反映真实世界用户需求的偏好来确保真实性,例如偏好直飞航班(航班)或特大号床(酒店)。其次,通过收集约100种跨越旅行方面的不同偏好来实现多样性。第三,通过将每个偏好与多个自然表述的陈述配对来强调隐含性,这些陈述间接表达了意图。例如,对直飞航班的偏好可能表述为:"我总是把日程安排得很紧凑,所以我喜欢最小化中转时间的旅行路线。"

这些精心策划的偏好及其相关的隐含表达构成了生成旅行场景的基础。研究团队随机抽样并组合五个方面的偏好,根据涉及的偏好数量将结果数据分为三个难度等级。对于每个组合,他们使用GPT-4o生成一个包含所有相关偏好的理想旅行安排声明,最终形成环境中的一个数据点。

工具增强与环境构建

对于每个旅行规划方面,研究团队开发了一个模拟数据库搜索的相应工具。例如,航班搜索工具接受出发地、目的地和日期,返回模拟选项列表。他们依赖预生成的选项来确保稳定和受控的工具输出,而不是查询实时数据。

每个数据点都与所有相关旅行规划方面的定制选项数据库相关联。具体来说,对于每个方面,他们生成三种类型的选项:正确(满足所有偏好)、错误(违反至少一个偏好)和噪声(不完整或与查询无关,例如目的地与用户搜索不同的航班选项)。这些选项混合形成完整的搜索空间,每个数据点包含超过100个选项。

环境中的每个数据点包含一个旅行场景、一组隐含用户偏好和相关选项数据库。环境模拟了一个具有访问这些内部状态的预言用户,同时与被测代理模型进行多轮互动。重置时,环境仅提供基本的旅行信息和高级要求(例如酒店或航班),不披露任何特定偏好。然后,偏好会随着时间被引出,要么(i)当被测模型明确询问相关方面时,要么(ii)在没有进展的固定轮次后,此时会随机主动揭示一个偏好。所有引出的偏好都以隐含方式呈现,与相关数据一致。

代理交互界面

UserBench为代理提供了标准化的交互界面,支持三种类型的操作:行动、搜索和回答。通过搜索,代理发出指定旅行规划方面和参数的查询(例如特定日期的酒店),这些查询与真实情况进行匹配。如果参数匹配,环境返回相关选项的混合集;否则,它不返回任何内容。

通过行动,代理与用户交流,通常通过提出澄清问题。环境解释意图并自然回应,可能以隐含形式揭示偏好。最后,通过回答,代理选择其推荐的选项ID,这些选项针对真实正确选项进行评估。由于理想的行程通常跨越多个方面,正确答案可能包括几个选项。

评测变体、可扩展性和统计信息

UserBench支持几种扩展。首先,它可以模拟一个噪声搜索环境,其中查询结果以可配置频率被破坏,模拟真实世界的网页或工具错误。其次,它通过奖励不仅找到正确选项而且选择最具成本效益选项(最佳选项)的模型来实现预算感知决策。超参数可以控制此奖励的强度,鼓励代理优化实用效用。

如图1所示,随机偏好组合策略增强了数据构建的多样性和可扩展性,实现了超过10,000个不同场景。为了在基准测试期间管理计算成本,研究团队使用417个数据点进行测试,并保留2651个用于训练(这些不用于基准测试,但可能支持未来的模型训练)。

为什么AI总猜不中你的心意?4K+场景实验揭开AI协作的"三宗罪"-AI.x社区

UserBench的详细统计信息如表2所示。例如,"Travel-223"表示一个包含三个旅行方面的场景:两个方面各包含两个隐含偏好,一个方面包含三个。有关数据和环境构建的更多细节在附录B中提供。

实验结果:AI在理解用户需求方面的表现如何?

实验设置

研究团队采用了两种变体(损坏搜索、预算约束)来增加测试难度。GPT-4o(温度为0.0)用作所有对话的用户模拟器。在标准设置中,他们将最大对话轮次限制为20。他们在两种设置下评估模型:(1)单选设置(主要评估),模型只允许为每个旅行方面输出一个选项;(2)多选设置,模型可以输出多个选项,我们根据获得最高奖励的选项对其进行评估。

评估包括闭源和开源模型。闭源模型包括GPT、Claude、Deepseek和Gemini系列,而开源模型包括Qwen3和Llama3系列,模型大小从8B到70B不等。所有模型都使用0.0的温度生成响应,以确保确定性行为。

主要评估指标是基于旅行场景每个方面所选选项质量的归一化分数。对于每个方面,如果模型选择了最佳选项(根据奖励判断),它获得1.0的分数。如果选项正确但不是最佳,则获得0.8。所有其他选项获得0.0。我们计算为每个方面选择的选项中的最高奖励分数(在多选设置中),并在场景中的所有方面上取平均值。

此外,研究团队还报告了几个辅助指标以更好地理解模型行为(全部微平均):

  • 最佳存在率:模型在其选择中包含最佳选项的方面比例
  • 正确存在率:模型包含一个正确(不一定是最佳)选项的方面比例
  • 有效搜索尝试率(%):模型搜索查询语法有效的比率
  • 有效行动尝试率(%):模型行动成功探测用户真实偏好的比率
  • 偏好引出率(%):对话期间揭示的所有真实偏好的百分比。它包括主动引出(偏好作为对被测模型有效行动尝试的响应而披露)和被动引出(当模型过于偏离主题时,UserBench释放偏好以引导对话)

主要实验结果

为什么AI总猜不中你的心意?4K+场景实验揭开AI协作的"三宗罪"-AI.x社区

单选设置和多选设置的结果分别如表3和表4所示,研究团队总结了以下关键发现:

单选设置显著更具挑战性。从多选设置切换到单选设置时,分数平均下降约40%。这突显了模型在只有一次回答尝试的情况下选择最佳甚至三个正确选项之一的困难。当允许提出多个答案时,观察到性能普遍提高,表明有更多机会增加了击中正确答案的可能性。

偏好引出率在所有模型中仍然较低。人们可能期望多选设置中的性能提升源于更好的用户理解。然而,研究发现偏好引出率没有显著改善,在某些情况下,如GPT-4o和Deepseek-V3,甚至下降。这表明更高的分数更常源于随机猜测或蛮力覆盖,而不是主动推理。此外,整体用户偏好引出率在所有模型中仍然较低,特别是通过主动查询揭示的偏好。这表明当前模型在交互设置中仍然难以主动有效地发现用户需求。

理解用户比执行工具使用更难。表现最好的模型在有效搜索尝试中保持超过80%的成功率,但有效行动尝试率要低得多。这与UserBench将难度从工具使用转移到用户理解的目标一致。请注意,有效行动尝试率仅在行动步骤上计算(不包括搜索和回答),因此较高的速率不一定反映整体上有效查询的绝对数量更高。尽管如此,它表明模型的问题更精确且与偏好相关,而不是模糊或偏离主题,这些被归类为无效尝试。

其他有趣发现。一些模型,如Gemini-2.5-Flash,实现了高行动尝试有效率但相对较低的主动偏好引出率。这表明它们可以提出有效的澄清问题,但往往不能重复或全面地这样做,限制了它们捕捉用户偏好全部范围的能力。相比之下,Claude-4-Sonnet在这两个指标上都表现良好,表明在意图澄清方面具有强大能力。然而,其整体得分不是最高的。这突显了理解用户偏好与有效将其整合到决策中的差距。换句话说,即使模型擅长引出偏好,它们仍可能难以在推理中利用这些信息以提供最佳建议。

深入分析

所有分析都在单选设置下进行,这是主要的评估设置,并专注于分数作为主要指标。基于轮次的pass-k采样和选择消融分析专门针对Travel-22、33和44场景的数据点进行。

为什么AI总猜不中你的心意?4K+场景实验揭开AI协作的"三宗罪"-AI.x社区

图2:测试模型在三个难度等级上的分数分布

难度等级划分有效反映了UserBench的挑战。研究团队首先分析了场景难度如何影响模型性能,如图2所示。按照表2的分层,他们根据偏好复杂性将测试场景分为简单、中等和困难。结果显示,随着难度的增加,分数普遍呈下降趋势。这证实了他们的难度分层捕捉了模型的实际推理挑战。此外,每个模型在各层级内的性能下降揭示了在处理复杂用户交互方面缺乏鲁棒性,而这正是人类通常擅长的。

主要挑战在于每个方面的偏好数量。为了确定UserBench中困难的主要来源,研究团队调查了性能是受旅行方面数量还是每个方面的偏好数量影响更大。他们首先固定方面数量并变化每个方面的偏好数量。

为什么AI总猜不中你的心意?4K+场景实验揭开AI协作的"三宗罪"-AI.x社区

图3:当方面数量固定时,更多用户偏好通常导致更低分数

如图3所示,随着偏好数量的增加,模型分数持续下降。这表明处理更丰富的用户偏好信号是当前模型的主要挑战。

为什么AI总猜不中你的心意?4K+场景实验揭开AI协作的"三宗罪"-AI.x社区

图4:当总用户偏好固定时,每个方面更少的偏好通常导致更高分数

接下来,他们固定场景中的偏好总数并变化它们在方面的分布。如图4所示,当偏好更均匀地分布在多个方面而不是集中在少数几个方面时,性能提高。这意味着当每个方面涉及更少、更简单的偏好时,模型推理更有效。将多个偏好集中在单个方面似乎会使模型的局部推理过程过载。总之,这些结果表明每个方面的偏好数量是UserBench中困难的主要驱动因素。

为什么AI总猜不中你的心意?4K+场景实验揭开AI协作的"三宗罪"-AI.x社区

表5:加权时间分析

模型难以提供既正确又及时的答案。为了评估模型是否不仅找到正确或最佳答案,还评估何时找到,研究团队在表5中进行了加权时间分析。使用权重函数w(i) = 1/(i + 1),他们惩罚延迟发现,其中i是有效答案(奖励> 0)首次出现的轮次。值得注意的是,开源Qwen模型在时间上优于Deepseek,尽管Deepseek在表3中的整体准确度排名更高。这表明虽然Deepseek最终找到了好答案,但效率较低。相比之下,GPT-4o和Gemini-2.5-Pro更好地平衡了覆盖率和时间,实现了更高的正确存在率和整体加权分数。

研究团队还报告了有效答案首次出现的平均轮次索引。较小的模型,如Llama-3.1-8B和Gemini-2.5-Flash,显示出较低的平均索引,表明它们早期猜测的成功尝试。然而,这些猜测经常失败,导致加权分数较低且正确存在率有限。这揭示了一个常见的失败模式:较小的模型依赖于浅层启发式或早期猜测,而不是深入参与用户意图。虽然这可能偶尔产生快速的正确答案,但更常导致与用户需求不符的低质量答案。

为什么AI总猜不中你的心意?4K+场景实验揭开AI协作的"三宗罪"-AI.x社区

图5:增加交互中允许的轮次并不一定导致所有模型性能更好

更多交互轮次不保证更好的性能。研究团队还检查了增加交互轮次是否会提高性能,如图5所示。令人惊讶的是,简单地允许更多轮次并不会带来一致的收益,在某些情况下,性能甚至会下降。这表明许多模型未能利用扩展的交互窗口来引出偏好或完善理解。相反,较长的对话往往导致重复或偏离主题的对话。没有强大的对话规划和目标跟踪,仅靠更多轮次不足以提高性能。

为什么AI总猜不中你的心意?4K+场景实验揭开AI协作的"三宗罪"-AI.x社区

图6:增加采样次数提高了最高分数但平均分数显示变化不大甚至略有下降

采样频率的影响揭示了不稳定性。研究团队使用pass-k评估分析了采样频率的影响,如图6所示。虽然k个样本中的最高分数稳步增加,但平均分数保持不变甚至下降。这表明更多样本增加了偶然发现良好响应的机会,但大多数输出仍然较差。结果突显了一个关键限制:当前模型严重依赖采样运气而不是鲁棒推理来与用户偏好对齐。考虑到pass-k采样的高成本,这种不稳定性对部署可靠的用户交互系统构成了挑战。

为什么AI总猜不中你的心意?4K+场景实验揭开AI协作的"三宗罪"-AI.x社区

表6:选择分布对模型分数的影响

更少选项减少了干扰但不降低核心挑战。研究团队最后进行了消融研究,以评估错误和噪声选项的数量如何影响模型性能。如表6所示,减少这些干扰项通常会提高分数。然而,即使是像Deepseek-V3和GPT-4o这样的强大模型,移除五个错误或噪声选项(约占总数的30%)也只会带来适度的收益。有趣的是,一些较小的模型,如Qwen-14B,甚至显示出轻微的性能下降。这些结果表明(1)减少选项不会从根本上降低任务难度:完全理解用户偏好仍然是必要的,因为只有一个最佳选项满足所有约束(包括预算约束);(2)许多模型仍然依赖浅层猜测而不是真正的偏好理解,这限制了它们从减少干扰中受益的能力。这些结果也间接突显了他们为每个数据场景设计的选项集的故意复杂性。

讨论与结论

UserBench的广泛适用性

UserBench作为标准Gym环境实现,提供了几个优势:(1)它暴露了熟悉的API(例如reset、step),允许与其他Gym兼容系统无缝集成;(2)它将用户行为抽象为黑盒环境,使代理能够直接交互而无需了解用户逻辑的内部知识。这种设置反映了现实世界的场景,其中代理必须在没有完全透明的情况下推断用户意图,减少模型的认知负担并鼓励可泛化行为。

这些特性也使UserBench对评估和训练都友好:(1)作为基准,它支持灵活的测试配置,包括可定制的选项集、奖励函数(例如答案正确性、搜索和行动有效性、惩罚等)和用户反馈机制(例如基于规则、用户模拟等)。这允许在不同用户配置文件下进行细粒度的代理行为分析。(2)作为训练环境,任何具有工具使用能力的模型都可以通过他们提供的标准化交互界面使用UserBench。它支持监督微调和强化学习,特别是多轮RL,通过提供轮次奖励和部分信用信号,这对于提高用户对齐交互的鲁棒性至关重要。这也使UserBench特别适合将RL应用于代理LLM的新兴趋势。

用户交互中平衡效率与有效性

加权时间分析揭示了许多模型,包括GPT-4o,通常通过早期猜测答案而不是彻底探测用户偏好来优先考虑效率。因此,虽然代理可能通过提供快速响应而显得有帮助,但它们经常忽略更深层次的用户意图。这反映了现实世界的体验,用户收到看似有帮助的答案但仍然感到被误解,导致重复的提示修改和不满。

相反,研究团队很少观察到相反的失败模式,即模型无限犹豫和过度请求信息。然而,这两种极端都突显了平衡效率(及时响应)和有效性(满足用户需求)的必要性。这种权衡也反映了围绕工具使用效率的更广泛关注,这在最近的工作中受到了越来越多的关注。虽然UserBench没有明确量化这种平衡,但它揭示了有针对性的训练可以有效解决的模型行为。未来的工作,特别是使用RL,可以将代理行为塑造为朝向这种平衡。

为了促进效率,奖励函数可以通过根据给出正确答案的轮次衰减奖励来惩罚延迟的偏好发现。为了促进有效性,可以为每个成功引出的用户偏好授予部分奖励,并对缺乏足够支持交互的正确答案应用惩罚。这些策略阻止猜测并鼓励深思熟虑、用户感知的交互。UserBench支持这种奖励定制,为训练不仅能够而且真正用户对齐的代理提供了灵活平台。

paper

​https://arxiv.org/abs/2507.22034​

UserBench: An Interactive Gym Environment for User-Centric Agents

本文转载自AIGC深一度,作者:一度

已于2025-10-14 10:06:10修改
收藏
回复
举报
回复
相关推荐