
MedSAM2: 3D医疗图像和视频的全能分割模型、DeepResearcher: 通过真实环境强化学习实现深度研究
今日目录
1、 MedSAM2: 3D医疗图像和视频的全能分割模型
2、 DeepResearcher: 通过真实环境强化学习实现深度研究
3、 APIGen-MT: 通过模拟代理-人类互动生成高质量对话数据
4、 更大的语言模型是否意味着更好的推理能力?预训练推理缩放规律
5、 何时求解,何时验证:计算最优问题求解与LLM推理的生成验证
6、 突破传统数学批改!这个AI系统能给你的每一步解题过程打分
1、 MedSAM2: 3D医疗图像和视频的全能分割模型
图片
MedSAM2模型通过在超过45.5万对3D图像-掩码对和7.6万帧数据上微调Segment Anything Model 2,成功打造了一个可提示式分割基础模型,在各种器官、病变和成像模式下的表现均优于现有模型。
研究团队还实现了人机协作流程,促进大规模数据集的创建,完成了迄今最大规模的用户研究,包括标注5,000个CT病变、3,984个肝脏MRI病变和251,550帧超声心动图视频帧,证明MedSAM2可以减少超过85%的人工成本。
该模型已集成到广泛使用的平台中,提供用户友好的界面,支持本地和云部署,成为研究和医疗环境中支持高效、可扩展和高质量分割的实用工具。
论文标题:MedSAM2: Segment Anything in 3D Medical Images and Videos
论文链接:https://arxiv.org/abs/2504.03600
2、 DeepResearcher: 通过真实环境强化学习实现深度研究
图片
这是一篇结合搜索引擎和LLM的新论文,完全基于GRPO方法。研究团队推出了DeepResearcher,这是首个通过在真实世界环境中端到端训练LLM研究代理的综合框架,具有真实网络搜索交互。
与假设所有必要信息都存在于固定语料库中的RAG方法不同,DeepResearcher训练代理在嘈杂、非结构化和动态的开放网络中导航。研究实现了专门的多代理架构,使浏览代理能从各种网页结构中提取相关信息。
在开放领域研究任务上的广泛实验表明,DeepResearcher比基于提示工程的基线提高了高达28.9个点,比基于RAG的强化学习代理提高了高达7.2个点。
质性分析揭示了端到端强化学习训练产生的认知行为,包括制定计划、从多个来源交叉验证信息、进行自我反思以重定向研究,以及在无法找到明确答案时保持诚实的能力。
论文标题:DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments
论文链接:https://arxiv.org/abs/2504.03160
3、 APIGen-MT: 通过模拟代理-人类互动生成高质量对话数据
图片
这篇论文介绍了APIGen-MT,一个两阶段框架,用于生成可验证且多样化的多轮代理数据。在第一阶段,代理流程利用LLM审阅委员会和迭代反馈循环,生成带有真实行动的详细任务蓝图。这些蓝图随后通过模拟的人类-代理互动转化为完整的交互轨迹。
研究团队训练了一系列模型——xLAM-2-fc-r,参数规模从1B到70B不等。这些模型在τ-bench和BFCL基准测试中的表现优于GPT-4o和Claude 3.5等前沿模型,较小的模型甚至超过了较大的模型,特别是在多轮设置中,同时在多次试验中保持更高的一致性。
模型链接:https://huggingface.co/Salesforce/xLAM-2
网站与数据集:https://apigen-mt.github.io
论文标题:APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay
论文链接:https://arxiv.org/abs/2504.03601
4、 更大的语言模型是否意味着更好的推理能力?预训练推理缩放规律
图片
在设计用来紧密复制真实世界大规模知识图谱结构和分布的合成多跳推理环境中,研究者观察到过度参数化会由于过度记忆而损害推理性能。
研究任务涉及完成图中缺失的边,这需要先进的多跳推理,并模仿真实世界的推理场景。为了评估这一点,研究团队从头开始仅使用不完整图的三元组预训练语言模型,并评估它们推断缺失边的能力。
有趣的是,研究者观察到过度参数化会由于过度记忆而损害推理性能。他们研究了影响这种U形损失曲线的不同因素,包括图结构、模型大小和训练步骤。为了预测特定知识图谱的最佳模型大小,团队找到了一个经验缩放规律,可以将知识图谱搜索熵线性映射到最佳模型大小。
论文标题:Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning
论文链接:https://arxiv.org/abs/2504.03635
5、 何时求解,何时验证:计算最优问题求解与LLM推理的生成验证
图片
这篇论文分析了在固定计算预算下的最佳策略——是生成多个解决方案(自一致性,SC)还是深入验证较少的解决方案(生成奖励模型,GenRM)。
研究发现,SC在较低预算下更具计算效率,而GenRM仅在显著更高的预算下表现更好(例如,仅需要8倍的计算量就能与SC匹配)。
- 自一致性(SC)对于许多计算预算来说实际上更优,需要比GenRM少8倍的计算量。
- 最优GenRM扩展解决方案的速度更快(预算指数约为0.6-0.75),而验证的扩展速度较慢(指数约为0.3-0.4)。
- 在固定计算量的比较中揭示了GenRM的高成本,这在固定解决方案评估中被忽略了。
论文标题:When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning
论文链接:https://arxiv.org/abs/2504.01005
6、 突破传统数学批改!这个AI系统能给你的每一步解题过程打分
图片
当前的自动数学纠错通常只检查最终答案,忽略了解题步骤中的推理错误。这篇论文引入了StepAMC,使用强化学习(RL)改进LLM推理,实现详细的、逐步的数学解决方案检查。
在PRM-42K数据集上,StepAMC实现了更高的F1分数(81.69%)和准确率(81.81%),优于直接偏好优化(DPO)等强大基线(79.28%的F1,79.43%的准确率)。
- 强化学习迫使LLM分析逐步逻辑,使推理能力超越简单分类。
- 空间约束策略网络(Space-Constrained Policy Network)通过添加特定约束增强训练稳定性,使模型更加专注。
- 细粒度奖励网络(Fine-grained Reward Network)提供细致、连续的反馈,使模型能够更好地从部分正确的步骤中学习。
论文中探索的方法🔧:
→ 空间约束策略网络(SCPN)通过在训练期间使用领域特定约束缩小动作搜索空间,增强RL稳定性。
→ 细粒度奖励网络(FRN)将简单的二元人类反馈(正确/不正确)转换为连续奖励值,为评估每个步骤的正确性提供更细致的指导。
论文标题:Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning
论文链接:https://arxiv.org/abs/2503.18432
本文转载自AI帝国,作者:无影寺
