今天分享一篇上海人工智能实验室的文章,标题为DOLPHIN:MovingTowardsClosedloopAutoresearchthroughThinking,Practice,andFeedback(DOLPHIN:通过思考、实践和反馈迈向闭环自动化研究)。这篇文章介绍了一个名为DOLPHIN的闭环、LLM驱动的框架,旨在提升科学研究的自动化水平。该框架模拟人类研究过程,通过迭代循环进行思考(想法产生)、实践(实验验证)和反馈(结果分析)。DOLPHIN的方法主要包括三个关键阶段:1)想法产生:...
2025-06-13 06:42:33 689浏览 0点赞 0回复 0收藏
今天分享一篇来自HarvardUniversity和KempnerInstitute的文章,标题为EchoChamber:RLPosttrainingAmplifiesBehaviorsLearnedinPretraining(RL后训练放大预训练中学到的行为)。这篇文章旨在系统性地研究强化学习(RL)微调对语言模型行为的影响,特别是其与预训练数据组成、超参数和模型规模的相互作用。该研究通过从头开始训练模型,并使用完全公开的数据集混合物进行预训练和RL微调,揭示了RL微调如何放大预训练数据中的特定模...
2025-05-30 06:03:16 953浏览 0点赞 0回复 0收藏
从1920年的小说《R.U.R》到《钢铁侠》中的JARVIS,在过去的一个世纪里,人们一直梦想着构建能够自动化日常工作的DigitalAgents(数字代理)。如今,随着视觉语言模型(VLMs)的蓬勃发展,构建这样的Agents成为了可能。11AgentforGUIControl想要构建一个有效的ComputerUseAgents,其必须拥有两个能力:(1)Planning能力,即规划Computeruse任务的能力,能将用户给定的(高阶)指令分步划分为多个子目标(2)Action能力,即根据...
2025-05-19 01:59:53 651浏览 0点赞 0回复 0收藏
大家好,我是HxShine今天分享一篇来自清华的文章,标题为:“DoesReinforcementLearningReallyIncentivizeReasoningCapacityinLLMsBeyondtheBaseModel”(强化学习真的能激励大型语言模型(LLM)产生超越基础模型本身的推理能力吗?)。这篇文章研究的问题:可验证奖励的强化学习(RLVR)真能够使LLM持续自我改进,获得超越其对应基础模型的新推理能力吗?(即强化学习能提高base基座模型的天花板吗?)。研究者通过使用passk指标(...
2025-05-06 07:12:18 893浏览 0点赞 0回复 0收藏
今天分享一篇来自清华大学和上海人工智能实验室的文章,标题为TTRL:TestTimeReinforcementLearning(测试时强化学习)。这篇文章探讨了一个重要且具有挑战性的问题:如何在没有显式标签(groundtruth)的情况下,利用强化学习(RL)在测试阶段提升大型语言模型(LLM)在推理任务上的性能。核心挑战在于测试时无法获得真实的奖励信号。研究者们发现,像多数投票(majorityvoting)这类在测试时扩展(TestTimeScaling,TTS)中常用...
2025-05-06 07:09:42 1275浏览 0点赞 0回复 0收藏
大家好,我是HxShine今天分享一篇香港科技大学、DeepSeekAI和上海交通大学联合发表的文章,标题为:CODEIO:CondensingReasoningPatternsviaCodeInputOutputPrediction(CODEIO:通过代码输入输出预测浓缩推理模式)。这篇文章提出了一种名为CODEIO的新方法,旨在通过代码输入输出预测来提炼和浓缩代码中蕴含的多种推理模式,从而提升大语言模型(LLMs)的推理能力。该方法的核心思想是将代码转换为一种输入输出预测任务,让模型...
2025-04-21 07:29:26 1016浏览 0点赞 0回复 0收藏
什么是AgentR1AgentR1是由中科大认知智能全国重点实验室开发的智能体强化学习训练框架,致力于推进强化学习与智能体技术的融合发展。框架采用端到端强化学习方法,突破了依赖人工设计工作流的传统智能体开发瓶颈,让AI直接从与环境的交互中学习最优策略,实现自主决策与行动。开发者只需定义特定领域的工具和奖励函数,即可将AgentR1扩展到各种应用场景,无需编写复杂的工作流程。背景随着大型语言模型(LLM)技术的快速发展,智...
2025-04-09 06:29:20 1483浏览 0点赞 0回复 0收藏
今天分享一篇伊利诺伊大学的文章,标题为:SearchR1:TrainingLLMstoReasonandLeverageSearchEngineswithReinforcementLearning(SearchR1:利用强化学习训练LLM进行推理并利用搜索引擎)。这篇文章是关于如何训练大型语言模型(LLMs)有效地利用搜索引擎来增强其推理和文本生成能力。论文提出了一个名为SEARCHR1的框架,该框架仅仅通过强化学习(RL)让LLM学习如何在逐步推理过程中自主生成搜索查询并与实时检索交互。该方法特...
2025-03-27 00:09:53 1871浏览 0点赞 0回复 0收藏
今天分享一篇西湖大学张岳老师的一篇利用合成推理数据做论文评审文章,Title:DeepReview:ImprovingLLMbasedPaperReviewwithHumanlikeDeepThinkingProcess:通过合成类人深度思考过程改进基于LLM的论文评审效果。这篇文章探索了如何利用大型语言模型(LLM)来改进论文评审过程,提出了一个多阶段框架DeepReview,通过结合结构化分析、文献检索和基于证据的论证,模拟专家评审员的深度思考过程,从而提高LLM在论文评审中的可靠性...
2025-03-14 00:48:05 2774浏览 0点赞 0回复 0收藏
一、概述title:YouTrulyUnderstandWhatINeed:IntellectualandFriendlyDialogueAgentsgroundingKnowledgeandPersona论文地址:https:aclanthology.org2022.findingsemnlp.75代码地址:https:github.comdlawjddn803INFO1.1Motivation以前的研究将知识或个人资料混合融入预先训练的语言模型。其同时考虑知识和人物角色的能力仍然是有限的,导致生成结果出现幻觉,并且使用人物角色的方法也很被动。1.2Methods提出一种有效的agent...
2025-03-04 10:28:34 2167浏览 0点赞 0回复 0收藏
今天分享一篇来自上海人工智能实验室、清华大学、哈尔滨工业大学和北京邮电大学联合的一篇文章,标题是:Can1BLLMSurpass405BLLMRethinkingComputeOptimalTestTimeScaling(1B的LLM能否超越405B的LLM?重新思考计算最优的测试时缩放)。这篇文章研究了大型语言模型(LLMs)在「推理阶段通过增加计算量来提高性能的测试时缩放」(TestTimeScaling,TTS)方法。作者们「系统地分析了策略模型、过程奖励模型(PRMs)和问题难度如何...
2025-02-24 11:01:35 2133浏览 0点赞 0回复 0收藏
今天分享DeepSeekR1,Title:DeepSeekR1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning:通过强化学习激励LLM的推理能力。这篇文章介绍了DeepSeek的第一代推理模型DeepSeekR1Zero和DeepSeekR1。DeepSeekR1Zero模型通过大规模强化学习(RL)训练,没有监督微调(SFT)作为初步步骤,展示了RL的潜力及其带来的卓越的推理能力。通过强化学习,DeepSeekR1Zero自然而然地涌现出许多强大而有趣的推理行为。为了进一步优...
2025-02-14 13:29:37 3591浏览 0点赞 0回复 0收藏
还在为大模型推理速度慢、成本高而烦恼吗?这篇来自CMU和清华大学的论文给你带来了一个颠覆性的解决方案!他们发现,在推理大型语言模型时,“大力出奇迹”不再是真理!通过深入研究推理过程中的计算与性能关系,他们提出了“推理缩放定律”,并革命性地推出了一种名为REBASE的全新算法。REBASE就像一位聪明的向导,能够巧妙地利用奖励信号,指引模型在推理的迷宫中高效探索,避免了传统方法中耗时费力的盲目搜索。实验结果令...
2025-02-06 14:25:07 2302浏览 0点赞 0回复 0收藏
大家好,我是HxShine今天分享一篇来自清华的一篇利用Agent合成数据的文章,标题为《AgentHospital:ASimulacrumofHospitalwithEvolvableMedicalAgents》。这篇文章介绍了一种名为AgentHospital的仿医院模拟系统,该系统中患者、护士和医生都是由LLM驱动。文章的核心目标是使医生Agent能够在模拟环境中学习如何治疗疾病,从而验证社会模拟过程是否可以提高LLMAgent在特定任务上的性能。实验表明,随着在模拟过程中积累的样本越来...
2025-01-22 12:26:56 2728浏览 0点赞 0回复 0收藏
今天分享一篇阿里的利用Agent思想做工具调用的文章,标题为《SmallLLMsAreWeakToolLearners:AMultiLLMAgent》。其提出的多LLM代理微调框架,将工具调用拆解为三个agent(Planner、Caller、Summarizer),并结合一个二阶段的微调策略。对比单个LLM表现更为出色,性能也更为稳定,并且能够超过像ChatGPT、GPT4等闭源模型,证明了多agent思路在工具调用上的有效性。除了工具调用,或许本文的方法也可以拓展到问答的其他场景,大家...
2025-01-13 11:02:04 2859浏览 0点赞 0回复 0收藏
今天分享一篇来自南阳理工的一篇文章《LargeLanguageModelsforAutomatedOpendomainScientificHypothesesDiscovery》。本研究的目标是探索如何使用大型语言模型,尤其是GPT4,来自动发现科学假设。目前假设性归纳研究的局限性在于使用的数据不是原始网络语料库,而是手动选择后的句子,导致了来源较为封闭;同时,现有的假设标注大多是常识性知识,任务挑战性不足。本文提出了首个针对社会科学学术假设发现的自然语言处理(NLP)...
2025-01-03 12:34:30 2701浏览 0点赞 0回复 0收藏
还在为大模型推理速度慢、成本高而烦恼吗?这篇来自CMU和清华大学的论文给你带来了一个颠覆性的解决方案!他们发现,在推理大型语言模型时,“大力出奇迹”不再是真理!通过深入研究推理过程中的计算与性能关系,他们提出了“推理缩放定律”,并革命性地推出了一种名为REBASE的全新算法。REBASE就像一位聪明的向导,能够巧妙地利用奖励信号,指引模型在推理的迷宫中高效探索,避免了传统方法中耗时费力的盲目搜索。实验结果令人...
2024-12-25 11:42:25 3072浏览 0点赞 0回复 0收藏
大家好,我是HxShine。今天分享一篇普林斯顿大学和GoogleResearch,BrainTeam合作的一篇文章,REACT:SYNERGIZINGREASONINGANDACTINGINLANGUAGEMODELS[1]:在语言模型中协同Reasoning推理和Action行动。其在大语言模型中将Thought推理过程和Action行动结合,一方面可以通过Action从外部获取额外信息,另一方面可以通过Thought过程,细化任务,搜索有用信息,过滤无用信息,从而来提高大模型的表现。一、概述Title:REACT:SYNERG...
2024-12-17 12:15:45 4761浏览 0点赞 0回复 0收藏
最近被Sora刷屏,今天结合OpenAISora的技术报告Videogenerationmodelsasworldsimulators来看下Sora具备哪些能力,以及这些能力是怎么来的。功能上除了文生图,还支持以图片、视频作为prompt,极大拓展使用场景。技术上,利用spacetimepatches,统一了时空分割语言,为后续模型训练以及使用场景的拓展打下基础。数据侧在准备高质量的caption数据做了专门的优化。另外模型基础架构采用DiffusionTransformer,通过Scalling,显著提...
2024-12-12 11:37:49 2864浏览 0点赞 0回复 0收藏
大家好,我是HxShine。LLM的Reward模型该如何训练呢?今天对KaggleLLM比赛LLMScienceExam的一些优胜方法做一个总结,这是Kaggle竞赛平台第一次举办LLM相关比赛,赛题就是探索如何训练一个sciencebasedRewardModel。优胜方案中,如何利用RAG(检索增强)方法提高模型的上限,如何通过传统方法以及向量检索方法提高检索知识的质量,如何使用LoRA,QLoRA等技术对LLaMa2等系列进行微调,甚至在16GB内存的GPU上对70B大小的LLM进行推...
2024-12-04 12:47:42 3626浏览 0点赞 0回复 0收藏