arnoldzhw
LV.4
这个用户很懒,还没有个人简介
声望 431
关注 0
粉丝 1
私信
主帖 51
回帖
大家好,我是HxShine,今天继续来分享OpenAI姚顺雨的一篇文章,这篇文章探讨了Agent实际落地时该如何评测,他在thesecondhalf里面也提了这篇文章,是Agent真正落地到客服等领域必须要进行的一些评测工作,推荐给大家~论文名字是Title:Tbench:ABenchmarkforToolAgentUserInteractioninRealWorldDomains(Tbench:一个用于真实世界领域中工具智能体用户交互的基准测试)。现有基准大多不测试智能体与人类用户的动态交互能力,也...
5天前 358浏览 0点赞 0回复 0收藏
今天继续来看下经典的codebenchmark之SWEBENCH的细节,其由普林斯顿大学和芝加哥大学联合发表于ICLR2024,Title:SWEbench:CANLANGUAGEMODELSRESOLVEREALWORLDGITHUBISSUES(SWEbench:语言模型能解决真实的GitHub问题吗?)。这篇文章旨在解决当前语言模型(LMs)在代码生成领域评估基准过于简单、无法反映真实世界软件工程复杂性的问题。为此,作者们提出了一个全新的、极具挑战性的评估框架——SWEbench。该框架包含从12个流行的...
2025-09-24 07:02:26 3449浏览 0点赞 0回复 0收藏
今天分享来自中关村实验室和清华大学的一篇观点文章:AIAgentCommunicationfromInternetArchitecturePerspective:ChallengesandOpportunities。各类AI智能体快速涌现,但它们的通信方式却日益碎片化。这不仅造成了创新资源的冗余,也阻碍了跨系统间的协作。为此,本文首次从互联网架构的视角,对AI智能体通信进行了系统性分析。文章借鉴互联网数十年演进的成功经验,提炼出评估智能体生态系统的核心要素——可扩展性、安全性、...
2025-09-24 07:01:35 1367浏览 0点赞 0回复 0收藏
大家好,我是HxShine。今天再来看看GAIABenchmark的细节,来看看GAIA如何成为Agent领域最经典的BenchMark之一。它由MetaFAIR、HuggingFace、AutoGPT等机构联合发布。Title:GAIA:ABenchmarkforGeneralAlAssistants(GAIA:一个面向通用人工智能助手的基准测试)。GAIA旨在评估通用AI助手的能力。与当前主流AI评测基MMLU等追求“对人类也困难”的任务不同,GAIA的理念是提出一系列对普通人来说概念上简单,但对当今最先进的AI来说...
2025-09-24 07:01:19 1637浏览 0点赞 0回复 0收藏
今天分享一篇来自OpenAI的文章,Title:PaperBench:EvaluatingAI'sAbilitytoReplicateAIResearch(PaperBench:评估AI复现AI研究的能力)。这篇文章提出了一个名为PaperBench的全新基准测试,旨在评估AIAgents(AIagents)从零开始复现顶尖AI研究论文的能力。这项任务极具挑战性,要求AIAgents理解论文、从头编写代码、并成功运行实验以复现结果。该方法的核心贡献是:1)数据集:精选了20篇ICML2024的Spotlight和Oral论文作为复现...
2025-08-29 06:52:19 1080浏览 0点赞 0回复 0收藏
今天分享一篇来自字节跳动和复旦大学的研究,标题为《通过自动化构建环境的反馈驱动方法提升大型语言模型的工具使用能力》(FeedbackDrivenToolUseImprovementsinLargeLanguageModelsviaAutomatedBuildEnvironments)。这篇文章提出了一种创新方法,旨在解决大型语言模型(LLMs)在工具使用方面所面临的挑战,特别是缺乏高效的强化学习(RL)框架以及难以构建稳定训练环境和设计可验证奖励机制的问题。该研究通过构建自动化环境和...
2025-08-15 07:49:09 1863浏览 0点赞 0回复 0收藏
今天分享一篇ICLR25的一篇文章,标题为:AUTOMATEDDESIGNOFAGENTICSYSTEMS(自动化Agent设计系统)。手写workflow太累啦,这篇文章探讨了如何自动化设计强大的Agent系统(ADAS系统),其通过一种元智能体(metaagent)来自动编写和迭代优化Agent,让他自动化去发明新颖的构建模块和组合方式。同时通过一个名为元智能体搜索(MetaAgentSearch)迭代地编程新颖智能体,并根据其性能进行评估和优化。该方法特点总结如下:1.自动化A...
2025-08-01 06:52:00 1895浏览 0点赞 0回复 0收藏
今天分享一篇来自耶鲁大学、OPPO、UWMadison、UNC、斯坦福、字节跳动、微软研究院、谷歌DeepMind等众多顶尖机构合作的论文,题目为AGENTKB:LeveragingCrossDomainExperienceforAgenticProblemSolving(AGENTKB:利用跨域经验解决智能体问题)。这篇文章直面当前语言Agent的核心痛点:即难以在不同任务和领域之间有效地复用和迁移经验,导致在处理复杂问题时效率低下、错误频发。该框架通过一个创新的“推理检索精炼”(ReasonRe...
2025-08-01 06:41:15 2163浏览 0点赞 0回复 0收藏
今天分享一篇来自斯坦福大学和GoogleDeepMind的文章,标题为:《SyntheticDataGeneration&MultiStepRLforReasoning&ToolUse》(利用合成数据生成和多阶段强化学习进行推理和工具使用)。本文提出了一种名为SWiRL(StepWiseReinforcementLearning)的方法,旨在优化LLMs在复杂多步推理和工具使用任务中的表现。该方法分为两个主要阶段:1.合成数据生成:通过迭代式生成多阶段(Multistep)的推理和工具使用数据,并从中学习。2.多...
2025-07-11 06:44:02 2292浏览 0点赞 0回复 0收藏
这篇文章旨在探讨数学推理能力的提升是否能泛化到其他领域?研究发现,尽管许多LLM在数学基准测试上取得了显著进步,但这些提升在很大程度上未能有效迁移到其他领域。通过对20多个开源推理调优模型进行评估,并对Qwen314B模型进行控制实验,研究发现,基于强化学习(RL)调优的模型展现出更好的跨领域泛化能力,而基于监督微调(SFT)的模型则常常导致通用能力的遗忘。通过对潜在空间表示和token空间分布漂移的分析,揭示了SFT...
2025-07-11 06:36:03 1287浏览 0点赞 0回复 0收藏
今天分享一篇来自NVIDIA的研究论文,标题为《ProRL:ProlongedReinforcementLearningExpandsReasoningBoundariesinLargeLanguageModels》(ProRL:长时间强化学习拓展大型语言模型的推理边界)。这篇文章探讨了强化学习(RL)是否真正能拓展LLM推理上限?还是仅仅优化了其基础模型中已有的高奖励输出的采样效率,以及持续扩展RL计算是否能可靠地提高推理性能。作者通过引入ProRL(ProlongedReinforcementLearning)训练方法,证...
2025-06-26 01:02:03 2508浏览 0点赞 0回复 0收藏
今天分享一篇上海人工智能实验室的文章,标题为DOLPHIN:MovingTowardsClosedloopAutoresearchthroughThinking,Practice,andFeedback(DOLPHIN:通过思考、实践和反馈迈向闭环自动化研究)。这篇文章介绍了一个名为DOLPHIN的闭环、LLM驱动的框架,旨在提升科学研究的自动化水平。该框架模拟人类研究过程,通过迭代循环进行思考(想法产生)、实践(实验验证)和反馈(结果分析)。DOLPHIN的方法主要包括三个关键阶段:1)想法产生:...
2025-06-13 06:42:33 1771浏览 0点赞 0回复 0收藏
今天分享一篇来自HarvardUniversity和KempnerInstitute的文章,标题为EchoChamber:RLPosttrainingAmplifiesBehaviorsLearnedinPretraining(RL后训练放大预训练中学到的行为)。这篇文章旨在系统性地研究强化学习(RL)微调对语言模型行为的影响,特别是其与预训练数据组成、超参数和模型规模的相互作用。该研究通过从头开始训练模型,并使用完全公开的数据集混合物进行预训练和RL微调,揭示了RL微调如何放大预训练数据中的特定模...
2025-05-30 06:03:16 1998浏览 0点赞 0回复 0收藏
从1920年的小说《R.U.R》到《钢铁侠》中的JARVIS,在过去的一个世纪里,人们一直梦想着构建能够自动化日常工作的DigitalAgents(数字代理)。如今,随着视觉语言模型(VLMs)的蓬勃发展,构建这样的Agents成为了可能。11AgentforGUIControl想要构建一个有效的ComputerUseAgents,其必须拥有两个能力:(1)Planning能力,即规划Computeruse任务的能力,能将用户给定的(高阶)指令分步划分为多个子目标(2)Action能力,即根据...
2025-05-19 01:59:53 2007浏览 0点赞 0回复 0收藏
大家好,我是HxShine今天分享一篇来自清华的文章,标题为:“DoesReinforcementLearningReallyIncentivizeReasoningCapacityinLLMsBeyondtheBaseModel”(强化学习真的能激励大型语言模型(LLM)产生超越基础模型本身的推理能力吗?)。这篇文章研究的问题:可验证奖励的强化学习(RLVR)真能够使LLM持续自我改进,获得超越其对应基础模型的新推理能力吗?(即强化学习能提高base基座模型的天花板吗?)。研究者通过使用passk指标(...
2025-05-06 07:12:18 2385浏览 0点赞 0回复 0收藏
今天分享一篇来自清华大学和上海人工智能实验室的文章,标题为TTRL:TestTimeReinforcementLearning(测试时强化学习)。这篇文章探讨了一个重要且具有挑战性的问题:如何在没有显式标签(groundtruth)的情况下,利用强化学习(RL)在测试阶段提升大型语言模型(LLM)在推理任务上的性能。核心挑战在于测试时无法获得真实的奖励信号。研究者们发现,像多数投票(majorityvoting)这类在测试时扩展(TestTimeScaling,TTS)中常用...
2025-05-06 07:09:42 3146浏览 0点赞 0回复 0收藏
大家好,我是HxShine今天分享一篇香港科技大学、DeepSeekAI和上海交通大学联合发表的文章,标题为:CODEIO:CondensingReasoningPatternsviaCodeInputOutputPrediction(CODEIO:通过代码输入输出预测浓缩推理模式)。这篇文章提出了一种名为CODEIO的新方法,旨在通过代码输入输出预测来提炼和浓缩代码中蕴含的多种推理模式,从而提升大语言模型(LLMs)的推理能力。该方法的核心思想是将代码转换为一种输入输出预测任务,让模型...
2025-04-21 07:29:26 2572浏览 0点赞 0回复 0收藏
什么是AgentR1AgentR1是由中科大认知智能全国重点实验室开发的智能体强化学习训练框架,致力于推进强化学习与智能体技术的融合发展。框架采用端到端强化学习方法,突破了依赖人工设计工作流的传统智能体开发瓶颈,让AI直接从与环境的交互中学习最优策略,实现自主决策与行动。开发者只需定义特定领域的工具和奖励函数,即可将AgentR1扩展到各种应用场景,无需编写复杂的工作流程。背景随着大型语言模型(LLM)技术的快速发展,智...
2025-04-09 06:29:20 2998浏览 0点赞 0回复 0收藏
今天分享一篇伊利诺伊大学的文章,标题为:SearchR1:TrainingLLMstoReasonandLeverageSearchEngineswithReinforcementLearning(SearchR1:利用强化学习训练LLM进行推理并利用搜索引擎)。这篇文章是关于如何训练大型语言模型(LLMs)有效地利用搜索引擎来增强其推理和文本生成能力。论文提出了一个名为SEARCHR1的框架,该框架仅仅通过强化学习(RL)让LLM学习如何在逐步推理过程中自主生成搜索查询并与实时检索交互。该方法特...
2025-03-27 00:09:53 3666浏览 0点赞 0回复 0收藏
今天分享一篇西湖大学张岳老师的一篇利用合成推理数据做论文评审文章,Title:DeepReview:ImprovingLLMbasedPaperReviewwithHumanlikeDeepThinkingProcess:通过合成类人深度思考过程改进基于LLM的论文评审效果。这篇文章探索了如何利用大型语言模型(LLM)来改进论文评审过程,提出了一个多阶段框架DeepReview,通过结合结构化分析、文献检索和基于证据的论证,模拟专家评审员的深度思考过程,从而提高LLM在论文评审中的可靠性...
2025-03-14 00:48:05 4910浏览 0点赞 0回复 0收藏
获得成就
已积累 4.5w 人气
获得 0 个点赞
获得 1 次收藏