arnoldzhw
LV.3
这个用户很懒,还没有个人简介
声望 364
关注 0
粉丝 0
私信
主帖 43
回帖
今天分享一篇来自斯坦福大学和GoogleDeepMind的文章,标题为:《SyntheticDataGeneration&MultiStepRLforReasoning&ToolUse》(利用合成数据生成和多阶段强化学习进行推理和工具使用)。本文提出了一种名为SWiRL(StepWiseReinforcementLearning)的方法,旨在优化LLMs在复杂多步推理和工具使用任务中的表现。该方法分为两个主要阶段:1.合成数据生成:通过迭代式生成多阶段(Multistep)的推理和工具使用数据,并从中学习。2.多...
4天前 539浏览 0点赞 0回复 0收藏
这篇文章旨在探讨数学推理能力的提升是否能泛化到其他领域?研究发现,尽管许多LLM在数学基准测试上取得了显著进步,但这些提升在很大程度上未能有效迁移到其他领域。通过对20多个开源推理调优模型进行评估,并对Qwen314B模型进行控制实验,研究发现,基于强化学习(RL)调优的模型展现出更好的跨领域泛化能力,而基于监督微调(SFT)的模型则常常导致通用能力的遗忘。通过对潜在空间表示和token空间分布漂移的分析,揭示了SFT...
4天前 162浏览 0点赞 0回复 0收藏
今天分享一篇来自NVIDIA的研究论文,标题为《ProRL:ProlongedReinforcementLearningExpandsReasoningBoundariesinLargeLanguageModels》(ProRL:长时间强化学习拓展大型语言模型的推理边界)。这篇文章探讨了强化学习(RL)是否真正能拓展LLM推理上限?还是仅仅优化了其基础模型中已有的高奖励输出的采样效率,以及持续扩展RL计算是否能可靠地提高推理性能。作者通过引入ProRL(ProlongedReinforcementLearning)训练方法,证...
2025-06-26 01:02:03 1061浏览 0点赞 0回复 0收藏
今天分享一篇上海人工智能实验室的文章,标题为DOLPHIN:MovingTowardsClosedloopAutoresearchthroughThinking,Practice,andFeedback(DOLPHIN:通过思考、实践和反馈迈向闭环自动化研究)。这篇文章介绍了一个名为DOLPHIN的闭环、LLM驱动的框架,旨在提升科学研究的自动化水平。该框架模拟人类研究过程,通过迭代循环进行思考(想法产生)、实践(实验验证)和反馈(结果分析)。DOLPHIN的方法主要包括三个关键阶段:1)想法产生:...
2025-06-13 06:42:33 900浏览 0点赞 0回复 0收藏
今天分享一篇来自HarvardUniversity和KempnerInstitute的文章,标题为EchoChamber:RLPosttrainingAmplifiesBehaviorsLearnedinPretraining(RL后训练放大预训练中学到的行为)。这篇文章旨在系统性地研究强化学习(RL)微调对语言模型行为的影响,特别是其与预训练数据组成、超参数和模型规模的相互作用。该研究通过从头开始训练模型,并使用完全公开的数据集混合物进行预训练和RL微调,揭示了RL微调如何放大预训练数据中的特定模...
2025-05-30 06:03:16 1205浏览 0点赞 0回复 0收藏
从1920年的小说《R.U.R》到《钢铁侠》中的JARVIS,在过去的一个世纪里,人们一直梦想着构建能够自动化日常工作的DigitalAgents(数字代理)。如今,随着视觉语言模型(VLMs)的蓬勃发展,构建这样的Agents成为了可能。11AgentforGUIControl想要构建一个有效的ComputerUseAgents,其必须拥有两个能力:(1)Planning能力,即规划Computeruse任务的能力,能将用户给定的(高阶)指令分步划分为多个子目标(2)Action能力,即根据...
2025-05-19 01:59:53 851浏览 0点赞 0回复 0收藏
大家好,我是HxShine今天分享一篇来自清华的文章,标题为:“DoesReinforcementLearningReallyIncentivizeReasoningCapacityinLLMsBeyondtheBaseModel”(强化学习真的能激励大型语言模型(LLM)产生超越基础模型本身的推理能力吗?)。这篇文章研究的问题:可验证奖励的强化学习(RLVR)真能够使LLM持续自我改进,获得超越其对应基础模型的新推理能力吗?(即强化学习能提高base基座模型的天花板吗?)。研究者通过使用passk指标(...
2025-05-06 07:12:18 1184浏览 0点赞 0回复 0收藏
今天分享一篇来自清华大学和上海人工智能实验室的文章,标题为TTRL:TestTimeReinforcementLearning(测试时强化学习)。这篇文章探讨了一个重要且具有挑战性的问题:如何在没有显式标签(groundtruth)的情况下,利用强化学习(RL)在测试阶段提升大型语言模型(LLM)在推理任务上的性能。核心挑战在于测试时无法获得真实的奖励信号。研究者们发现,像多数投票(majorityvoting)这类在测试时扩展(TestTimeScaling,TTS)中常用...
2025-05-06 07:09:42 1652浏览 0点赞 0回复 0收藏
大家好,我是HxShine今天分享一篇香港科技大学、DeepSeekAI和上海交通大学联合发表的文章,标题为:CODEIO:CondensingReasoningPatternsviaCodeInputOutputPrediction(CODEIO:通过代码输入输出预测浓缩推理模式)。这篇文章提出了一种名为CODEIO的新方法,旨在通过代码输入输出预测来提炼和浓缩代码中蕴含的多种推理模式,从而提升大语言模型(LLMs)的推理能力。该方法的核心思想是将代码转换为一种输入输出预测任务,让模型...
2025-04-21 07:29:26 1275浏览 0点赞 0回复 0收藏
什么是AgentR1AgentR1是由中科大认知智能全国重点实验室开发的智能体强化学习训练框架,致力于推进强化学习与智能体技术的融合发展。框架采用端到端强化学习方法,突破了依赖人工设计工作流的传统智能体开发瓶颈,让AI直接从与环境的交互中学习最优策略,实现自主决策与行动。开发者只需定义特定领域的工具和奖励函数,即可将AgentR1扩展到各种应用场景,无需编写复杂的工作流程。背景随着大型语言模型(LLM)技术的快速发展,智...
2025-04-09 06:29:20 1758浏览 0点赞 0回复 0收藏
今天分享一篇伊利诺伊大学的文章,标题为:SearchR1:TrainingLLMstoReasonandLeverageSearchEngineswithReinforcementLearning(SearchR1:利用强化学习训练LLM进行推理并利用搜索引擎)。这篇文章是关于如何训练大型语言模型(LLMs)有效地利用搜索引擎来增强其推理和文本生成能力。论文提出了一个名为SEARCHR1的框架,该框架仅仅通过强化学习(RL)让LLM学习如何在逐步推理过程中自主生成搜索查询并与实时检索交互。该方法特...
2025-03-27 00:09:53 2125浏览 0点赞 0回复 0收藏
今天分享一篇西湖大学张岳老师的一篇利用合成推理数据做论文评审文章,Title:DeepReview:ImprovingLLMbasedPaperReviewwithHumanlikeDeepThinkingProcess:通过合成类人深度思考过程改进基于LLM的论文评审效果。这篇文章探索了如何利用大型语言模型(LLM)来改进论文评审过程,提出了一个多阶段框架DeepReview,通过结合结构化分析、文献检索和基于证据的论证,模拟专家评审员的深度思考过程,从而提高LLM在论文评审中的可靠性...
2025-03-14 00:48:05 3082浏览 0点赞 0回复 0收藏
一、概述title:YouTrulyUnderstandWhatINeed:IntellectualandFriendlyDialogueAgentsgroundingKnowledgeandPersona论文地址:https:aclanthology.org2022.findingsemnlp.75代码地址:https:github.comdlawjddn803INFO1.1Motivation以前的研究将知识或个人资料混合融入预先训练的语言模型。其同时考虑知识和人物角色的能力仍然是有限的,导致生成结果出现幻觉,并且使用人物角色的方法也很被动。1.2Methods提出一种有效的agent...
2025-03-04 10:28:34 2490浏览 0点赞 0回复 0收藏
今天分享一篇来自上海人工智能实验室、清华大学、哈尔滨工业大学和北京邮电大学联合的一篇文章,标题是:Can1BLLMSurpass405BLLMRethinkingComputeOptimalTestTimeScaling(1B的LLM能否超越405B的LLM?重新思考计算最优的测试时缩放)。这篇文章研究了大型语言模型(LLMs)在「推理阶段通过增加计算量来提高性能的测试时缩放」(TestTimeScaling,TTS)方法。作者们「系统地分析了策略模型、过程奖励模型(PRMs)和问题难度如何...
2025-02-24 11:01:35 2393浏览 0点赞 0回复 0收藏
今天分享DeepSeekR1,Title:DeepSeekR1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning:通过强化学习激励LLM的推理能力。这篇文章介绍了DeepSeek的第一代推理模型DeepSeekR1Zero和DeepSeekR1。DeepSeekR1Zero模型通过大规模强化学习(RL)训练,没有监督微调(SFT)作为初步步骤,展示了RL的潜力及其带来的卓越的推理能力。通过强化学习,DeepSeekR1Zero自然而然地涌现出许多强大而有趣的推理行为。为了进一步优...
2025-02-14 13:29:37 3859浏览 0点赞 0回复 0收藏
​还在为大模型推理速度慢、成本高而烦恼吗?这篇来自CMU和清华大学的论文给你带来了一个颠覆性的解决方案!他们发现,在推理大型语言模型时,“大力出奇迹”不再是真理!通过深入研究推理过程中的计算与性能关系,他们提出了“推理缩放定律”,并革命性地推出了一种名为REBASE的全新算法。REBASE就像一位聪明的向导,能够巧妙地利用奖励信号,指引模型在推理的迷宫中高效探索,避免了传统方法中耗时费力的盲目搜索。实验结果令...
2025-02-06 14:25:07 2515浏览 0点赞 0回复 0收藏
大家好,我是HxShine今天分享一篇来自清华的一篇利用Agent合成数据的文章,标题为《AgentHospital:ASimulacrumofHospitalwithEvolvableMedicalAgents》。这篇文章介绍了一种名为AgentHospital的仿医院模拟系统,该系统中患者、护士和医生都是由LLM驱动。文章的核心目标是使医生Agent能够在模拟环境中学习如何治疗疾病,从而验证社会模拟过程是否可以提高LLMAgent在特定任务上的性能。实验表明,随着在模拟过程中积累的样本越来...
2025-01-22 12:26:56 3134浏览 0点赞 0回复 0收藏
今天分享一篇阿里的利用Agent思想做工具调用的文章,标题为《SmallLLMsAreWeakToolLearners:AMultiLLMAgent》。其提出的多LLM代理微调框架,将工具调用拆解为三个agent(Planner、Caller、Summarizer),并结合一个二阶段的微调策略。对比单个LLM表现更为出色,性能也更为稳定,并且能够超过像ChatGPT、GPT4等闭源模型,证明了多agent思路在工具调用上的有效性。除了工具调用,或许本文的方法也可以拓展到问答的其他场景,大家...
2025-01-13 11:02:04 3175浏览 0点赞 0回复 0收藏
今天分享一篇来自南阳理工的一篇文章《LargeLanguageModelsforAutomatedOpendomainScientificHypothesesDiscovery》。本研究的目标是探索如何使用大型语言模型,尤其是GPT4,来自动发现科学假设。目前假设性归纳研究的局限性在于使用的数据不是原始网络语料库,而是手动选择后的句子,导致了来源较为封闭;同时,现有的假设标注大多是常识性知识,任务挑战性不足。本文提出了首个针对社会科学学术假设发现的自然语言处理(NLP)...
2025-01-03 12:34:30 2976浏览 0点赞 0回复 0收藏
还在为大模型推理速度慢、成本高而烦恼吗?这篇来自CMU和清华大学的论文给你带来了一个颠覆性的解决方案!他们发现,在推理大型语言模型时,“大力出奇迹”不再是真理!通过深入研究推理过程中的计算与性能关系,他们提出了“推理缩放定律”,并革命性地推出了一种名为REBASE的全新算法。REBASE就像一位聪明的向导,能够巧妙地利用奖励信号,指引模型在推理的迷宫中高效探索,避免了传统方法中耗时费力的盲目搜索。实验结果令人...
2024-12-25 11:42:25 3318浏览 0点赞 0回复 0收藏
获得成就
已积累 3.1w 人气
获得 0 个点赞
获得 1 次收藏