大模型推理与验证：MLLM感知图灵测试；可验证奖励跨领域冲突与互补；LLM形式化代码验证

AI研究前瞻

发布于 2025-7-28 00:13

浏览

0收藏

Pixels, Patterns, but No Poetry: To See The World like Humans

2025-07-21｜UCAS, NJU, NUS, BUPT, NKU, PSU, PKU, BJTU|🔺46

http://arxiv.org/abs/2507.16863v1
https://huggingface.co/papers/2507.16863
https://TuringEyeTest.github.io

研究背景与意义

多模态大语言模型（MLLMs）近年来在视觉理解与语言处理的结合上取得了显著进展，成为人工智能领域的重要研究方向。
尽管已有研究多聚焦于提升MLLMs的推理能力，但“MLLMs是否能像人类一样感知世界”的根本问题尚未解决。
本文提出了“图灵之眼测试”（Turing Eye Test, TET），一个专注于感知能力的基准测试，设计了四个诊断任务，考察模型对合成人类直观处理的图像的感知表现。
研究发现，当前最先进的MLLMs在这些感知任务上表现极差，显示出视觉感知与理解方面的显著瓶颈，尤其是视觉编码器（vision tower）的泛化能力不足，而非语言推理或知识能力的缺陷。

研究方法与创新

基准设计创新：TET基于四个视觉感知任务构建，涵盖隐藏文本识别、3D验证码识别、色盲测试图案识别以及复杂汉字结构识别，任务设计贴近人类直观视觉感知，区别于传统以推理为核心的多模态评测。
多模型广泛评测：选取15个不同架构和规模的MLLMs，涵盖统一多模态模型、闭源API模型及开源模型，全面评估其在TET任务上的表现，体现了研究的广泛适用性和代表性。
深入机制分析：利用Grad-CAM技术揭示模型视觉编码器及语言解码器的注意力分布，发现模型难以准确聚焦关键视觉区域，视觉编码器常偏重整体物体特征而忽视文本或细节特征，语言解码器则缺乏对视觉信息的有效利用。
细粒度微调实验：通过监督微调对模型不同组件（视觉编码器、语言骨干、视觉语言适配器等）进行参数更新，发现仅视觉编码器微调能显著提升任务表现，验证了视觉编码器泛化能力的核心瓶颈。
学习范式探索：尝试上下文学习（in-context learning）以提升模型感知能力，结果显示上下文示例对感知任务无明显提升，进一步凸显架构及视觉表征的根本限制。
图像处理实验：通过对输入图像进行下采样和模糊处理，发现下采样能提升模型在隐藏文本任务上的表现，说明视觉编码器对图像分块处理机制的敏感性及当前视觉特征提取方法的局限。
理论基础：研究基于视觉编码器（如ViT）与语言模型的联合架构，强调视觉编码器对感知任务的核心作用，提出感知与推理能力需分开考察，呼吁未来结合感知阶段的推理能力以提升视觉泛化。

实验设计与结果分析

数据集构建：TET包含四个子任务，分别为150张隐藏文本图像、150个3D验证码、150张色盲测试图以及40个复杂汉字组合，任务难度设计贴近人类直觉，确保评测的真实性和挑战性。
模型评测结果：15个MLLMs在四个任务上的Pass@1和Pass@32指标均极低，多数任务表现为零，最高也未超过约5%，显示模型在感知任务上的“灾难性失败”。
性能曲线：随着Pass@K增大，模型表现提升极其有限，说明增加生成尝试次数无法弥补视觉感知的根本不足。
Grad-CAM可视化：模型视觉编码器注意力多偏离关键字符区域，语言解码器注意力散乱，表明模型未能有效聚焦任务相关视觉信息。
微调效果：仅视觉编码器微调显著提升准确率（最高达90%以上），而语言骨干微调或视觉语言适配器微调效果甚微，验证视觉编码器是当前性能瓶颈。
上下文学习无效：多模型上下文学习示例加入后，感知任务表现无明显提升，反映出知识补充无法解决感知架构缺陷。
图像处理影响：下采样处理提升隐藏文本任务表现，模糊处理效果不佳，揭示视觉编码器对图像分块的依赖性及潜在的视觉特征提取不足。

结论与展望

本文通过TET基准揭示了当前最先进的多模态大语言模型在视觉感知方面存在的根本性缺陷，尤其是视觉编码器泛化能力不足，导致模型无法像人类一样直观地理解图像内容。
研究明确区分了视觉感知与语言推理能力，指出提升模型推理能力不足以解决感知瓶颈，强调未来工作应聚焦视觉编码器的结构改进和视觉泛化能力提升。
微调实验表明，针对视觉编码器的专门训练是提升感知能力的关键路径。
建议未来探索将推理能力注入感知阶段，融合像GRPO等先进训练方法，以促进视觉编码器对复杂视觉模式的理解和泛化。
计划发布更丰富多样的TET任务集，推动多模态模型在感知能力评测和提升上的持续进步，促进构建更接近人类视觉认知的智能系统。

Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning

2025-07-23｜OpenDataLab, Shanghai AI Lab|🔺23

http://arxiv.org/abs/2507.17512v1
https://huggingface.co/papers/2507.17512
https://github.com/Leey21/A-Data-Centric-Study

研究背景与意义

大模型推理与验证：MLLM感知图灵测试；可验证奖励跨领域冲突与互补；LLM形式化代码验证-AI.x社区

研究背景：随着大型语言模型（LLMs）推理能力的快速发展，强化学习与可验证奖励（RLVR）成为提升模型推理水平的重要范式。现有研究多聚焦于单一领域（如数学、编程、逻辑推理）的强化学习应用，然而现实应用往往涉及多领域综合推理，领域间的交互机制尚未充分理解。
研究意义：本研究系统性探讨了数学、代码生成和逻辑谜题三大推理领域在RLVR框架下的协同训练效果，揭示了跨领域训练的互补性与冲突，深入分析了监督微调（SFT）、课程学习、奖励设计及语言差异对多领域推理性能的影响，旨在为构建具备综合推理能力的多领域强化学习模型提供理论和实践指导。

研究方法与创新

大模型推理与验证：MLLM感知图灵测试；可验证奖励跨领域冲突与互补；LLM形式化代码验证-AI.x社区

技术框架：采用Group Relative Policy Optimization（GRPO）算法，结合Qwen-2.5-7B模型家族，针对数学、代码、逻辑谜题三领域构建了多维度训练与评估体系，涵盖单域训练、跨域联合训练、监督微调前后的对比分析，以及课程学习和奖励设计的系统探究。
创新点：

多领域系统性分析：首次系统揭示数学、代码与逻辑推理三领域在强化学习中的相互作用，包括相互促进与潜在冲突。

监督微调与强化学习结合：深入比较基础模型与经过指令微调模型在强化学习中的表现差异，明确SFT对RL效果的关键促进作用。

课程学习策略创新：提出策略刷新机制，通过阶段性更新参考模型和优化器状态，显著提升课程学习的收敛速度和最终性能。

奖励设计多样化：针对不同任务特性设计并比较二元奖励、部分奖励、格式奖励和重新缩放奖励，优化训练信号以提升学习效率。

语言敏感性研究：首次系统评估中文与英文训练数据对模型推理能力的影响，发现语言差异显著影响RLVR的泛化能力。

理论基础：基于强化学习理论，结合多任务学习与迁移学习原理，构建了适应多领域推理的训练框架，突破了传统单域强化学习的局限。

实验设计与结果分析

大模型推理与验证：MLLM感知图灵测试；可验证奖励跨领域冲突与互补；LLM形式化代码验证-AI.x社区

实验设计：

使用数学（DeepScaleR、CountDown）、代码（CodeR1-12k）、逻辑谜题（Knights-and-Knaves、LogicPuzzleBaron）数据集，统一规模采样，确保多领域训练数据平衡。

评估采用多任务基准，包括MATH500、AIME24、HumanEval、MBPP及ZebraLogicBench，覆盖不同推理难度与类型。

训练配置细致调整，数学任务设置更长的推理链条，代码任务采用安全沙箱执行环境，逻辑谜题任务设计多阶段课程学习。

关键结果：

单域训练中，数学与逻辑推理任务互相促进，提升模型推理深度；代码训练提升代码生成能力，但对基础模型存在一定抑制效应。

多域联合训练表现出复杂的协同效应，双域和三域组合均提升整体性能，但不同任务间的冲突需通过精细设计缓解。

模板一致性对模型性能至关重要，训练与测试模板不匹配会显著降低推理准确率，暴露当前RLVR方法在模板鲁棒性上的不足。

课程学习显著提升模型在复杂逻辑谜题上的表现，策略刷新机制加快收敛并提高最终精度，验证了分阶段训练的有效性。

奖励设计对模型训练影响显著，部分奖励在复杂任务中优于简单二元奖励，合理调整奖励函数有助于提升训练稳定性和泛化能力。

语言差异导致性能差距，英文训练数据普遍优于中文，提示未来需针对多语言环境优RLVR策略。

统计显著性：所有提升均在多次实验中重复验证，显著优于基线，展示了方法的稳健性和广泛适用性。

结论与展望

总结贡献：

本文首次系统性揭示多领域强化学习推理的内在机制和交互效应，明确了数学、代码和逻辑推理三领域的协同与冲突关系。

创新性地结合监督微调、课程学习和多样化奖励设计，显著提升了多领域推理模型的性能与泛化能力。

通过详细的模板一致性和语言敏感性分析，指出了当前强化学习推理方法的关键瓶颈和改进方向。

局限性分析：

当前研究主要基于7B参数规模模型，尚未验证更大规模模型的适用性和扩展性。

语言敏感性分析集中于中英文，缺少更多语言的广泛验证。

多领域训练中任务权重和数据比例的自动调节机制仍待深入研究，以进一步缓解领域间冲突。

未来展望：

探索更大规模模型和更复杂任务的多领域强化学习训练，推动模型推理能力向更高层次发展。

开发更鲁棒的模板设计和自适应训练策略，提升模型在不同应用场景下的泛化稳定性。

深入研究多语言、多文化背景下的强化学习推理，构建真正通用的跨领域推理模型。

引入自动化数据选择和任务调度机制，优化多领域训练过程，最大化协同效应，减少负迁移。

Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny

2025-07-22｜Shanghai AI Lab|🔺15

http://arxiv.org/abs/2507.16331v1
https://huggingface.co/papers/2507.16331
https://github.com/Veri-Code/ReForm

研究背景与意义

大模型推理与验证：MLLM感知图灵测试；可验证奖励跨领域冲突与互补；LLM形式化代码验证-AI.x社区

研究背景随着大型语言模型（LLMs）在自动代码生成领域的迅猛发展，确保生成代码的正确性成为关键挑战，尤其是在安全关键领域如医疗、金融和自动驾驶中。传统的单元测试和人工代码审查存在覆盖不足和依赖专家经验的局限，形式化验证作为一种数学上严谨的替代方案，能提供程序行为的严格证明。然而，现有LLMs在形式化验证任务中表现不佳，主要因数据稀缺和对人类先验知识的高度依赖。
研究意义本文首次系统探讨了如何减少对人类先验的依赖，通过将LLMs置于形式语言Dafny的环境中，实现自动且可扩展的形式软件验证。该研究不仅突破了传统依赖大量人工注释的瓶颈，还为未来实现大规模、可靠的形式化软件验证奠定了基础。通过自动生成和验证形式规范，本文推动了代码生成向真正语义理解和行为保证的转变。

研究方法与创新

大模型推理与验证：MLLM感知图灵测试；可验证奖励跨领域冲突与互补；LLM形式化代码验证-AI.x社区

技术方法描述研究设计了一套端到端自动化的数据构建和训练管线，核心包括：

数据构建：利用LLMs自动生成Dafny代码及其形式规范，结合Python代码转换和自动迭代验证修正，完全去除人工单样本注释。
基准设计：构建了DafnyComp基准，涵盖合成的复杂多函数程序，支持评估模型的组合推理和跨域泛化能力。
训练策略：采用两阶段训练，先通过有限监督微调（SFT）掌握基础语法和语义，再利用强化学习（RL）结合Dafny自动验证信号进行开放式探索和策略优化。
奖励设计：创新引入三类奖励机制——语法正确性奖励、验证奖励和逻辑子集奖励，后者通过逻辑蕴含关系衡量生成规范优于或等同于真实规范，极大促进了模型生成更强、更准确的规范。

创新点突出

极大降低人类先验依赖：完全摒弃自然语言链式思维（CoT）和人工注释，依赖自动化数据和系统反馈，实现训练过程的可扩展性。
形式语言空间内的强化学习应用：首次将RL反馈完全基于形式验证器的自动信号，保证了奖励的准确性和严谨性。
逻辑子集奖励机制：创新性地利用形式逻辑关系指导规范生成，推动模型超越训练数据，发掘更优规范。
小模型有效性验证：证明了0.5B至14B参数规模模型在该任务中的有效性，挑战了大型模型独占优势的常规认知。

理论基础讨论研究基于强化学习理论和形式验证的数学逻辑基础，结合最新的策略优化算法（如GRPO），确保训练过程既能探索新策略，又能稳定收敛。形式逻辑中预条件松弛和后条件强化的验证机制为奖励设计提供了坚实的理论支撑。

实验设计与结果分析

大模型推理与验证：MLLM感知图灵测试；可验证奖励跨领域冲突与互补；LLM形式化代码验证-AI.x社区

实验设计

模型与数据：使用Qwen-2.5架构，涵盖0.5B至14B参数规模，训练数据包含2万条自动注释的Dafny程序。
训练流程：先进行有限监督微调，再以Dafny验证器为反馈信号进行强化学习，训练细节包括采样温度、批量大小和学习率等均经过精细调优。
评估指标：采用语法正确率、验证通过率及规范优越率（SSR）三维度衡量模型性能，特别强调SSR以体现规范质量提升。

结果分析

监督微调效果显著：即使是0.5B模型，SFT阶段也能达到80%以上的语法正确率，优于GPT-4o等大型商业模型。
强化学习带来实质提升：RL阶段不仅提升了语法和验证通过率，更显著提高了规范优越率，表现出模型在探索更优规范方面的能力。
模型规模效应明显：随着模型参数增长，性能持续提升，尤其是在验证通过率和规范优越率上展现出良好的扩展性。
探索能力验证：RL训练产生了超出训练语料的新颖且语义丰富的规范，证明了RL驱动的探索有效突破了监督学习的局限。
消除CoT影响：实验中完全去除自然语言链式思维，确保性能提升源于模型在形式语言空间内的真实推理能力而非人工提示。

结论与展望

研究贡献总结本文提出了一种极大减少人类先验、依赖自动化形式验证反馈的训练管线，实现了小规模LLMs在形式软件验证任务中的突破。通过创新的奖励设计和数据构建方法，模型展现出强大的组合推理和泛化能力，超越了现有商业模型。该工作为实现大规模、可靠的自动形式化验证奠定了坚实基础。
局限性分析

数据仍主要依赖自动生成和合成，真实世界代码的多样性和复杂度可能导致泛化挑战。
Dafny验证器虽强大，但完备性有限，可能影响奖励信号的绝对准确性。
训练资源消耗较大，尤其是中大型模型的RL训练，限制了更大规模模型的探索。

未来方法展望

探索更丰富的形式语言和验证工具，提升奖励信号的全面性和准确性。
结合符号执行和静态分析等多模态验证手段，增强模型对复杂程序行为的理解。
研究更高效的RL算法和模型蒸馏技术，降低训练成本，推动更大规模模型的应用。
拓展到多语言、多范式的形式化验证，提升跨领域适应性和实用价值。

本文转载自AI研究前瞻，作者：胡耀淇

标签

MLLM

LLM

代码

51CTO

51CTO博客

51CTO学堂

大模型推理与验证：MLLM感知图灵测试；可验证奖励跨领域冲突与互补；LLM形式化代码验证

Pixels, Patterns, but No Poetry: To See The World like Humans

研究背景与意义

研究方法与创新

实验设计与结果分析

结论与展望

Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning

研究背景与意义

研究方法与创新

实验设计与结果分析

结论与展望

Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny

研究背景与意义

研究方法与创新

实验设计与结果分析

结论与展望

目录