PaperAgent
LV.5
日更,解读AI前沿技术热点Paper
声望 904
关注 0
粉丝 2
私信
主帖 90
回帖
强化学习(RL)与视觉智能交叉领域的最新进展,已催生出不仅能感知复杂视觉场景,还能在其中进行推理、生成并采取行动的智能体。NUS&浙江大学&香港中文大学对这一快速发展领域进行了批判性且及时的系统梳理:首先形式化视觉RL问题,并追溯策略优化策略的演进:从RLHF到可验证奖励范式,从近端策略优化(PPO)到群组相对策略优化(GRPO)。将200余篇代表性工作归纳为四大主题支柱:多模态大语言模型、视觉生成、统一模型框架,以...
1天前 739浏览 0点赞 0回复 0收藏
LLM的发展极大地推动了自然语言理解和决策制定的进步,展现了在推理、规划和工具使用方面的显著能力。LLM时代,自主智能体已成为实现AGI的强大范式。然而,随着基于智能体系统的复杂性增加,智能体工作流(AgentWorkflow)——一种结构化的编排框架——已成为实现可扩展、可控和安全AI行为的核心。智能体工作流的目标是使智能体能够在涉及复杂多步骤任务的真实世界场景中完全自主地运行,Paper对智能体工作流系统进行了全面综述...
1天前 815浏览 0点赞 0回复 0收藏
在LLM时代,对齐(alignment)已成为追求更可靠、更可控、更强大的机器智能的一个基础但具有挑战性的问题。推理模型和对话式人工智能系统近期的成功凸显了强化学习(RL)在提升这些系统中的关键作用,通过逆强化学习(IRL)的视角,全面回顾了LLM对齐的最新进展。一、强化学习基础回顾了马尔可夫决策过程(MDP)的基本概念,包括状态空间、动作空间、转移动态、奖励函数等。定义:马尔可夫决策过程(MDP)是强化学习中的一个核...
2025-08-01 06:25:53 602浏览 0点赞 0回复 0收藏
本期推文将介绍一项面向工业CAD建模序列精准生成的新颖多模态大语言模型——CADGPT,该研究成功入选CCFA类人工智能顶级会议AAAI2025。在现代制造业中,计算机辅助设计(CAD)工具已成为工业产品开发不可或缺的关键技术,广泛应用于汽车、航空、电子、机械等多个核心行业。尽管CAD极大提升了设计的精度与效率,但其建模过程仍高度依赖人工操作与工程经验,尤其在三维空间建模、结构组合、序列构建等环节对空间推理与几何知识的要...
2025-08-01 06:23:39 4210浏览 0点赞 0回复 0收藏
近期Coze开源的消息刷爆了朋友圈,这对于想通过搭建Agent解决复杂问题的企业开发者而言简直是超大好消息!通过Coze平台,企业用户可以通过零代码或低代码的方式,快速搭建出解放生产力的AI工作流,辅助员工高效完成各类的复杂任务。今天,我就来分享一个用Coze搭建文档智能问答Bot的保姆级教程。图片​图片来自扣子官方我们经常会遇到从产品手册、技术白皮书、合同条款、内部报告……等文档中快速精准地提取所需信息的情况,这...
2025-07-31 23:58:20 3124浏览 0点赞 0回复 0收藏
尽管近年来语言模型取得了惊人进展,这一进步主要源于从面向特定任务的专用模型转向基于强大架构(如Transformer)的通用模型——这些模型能从原始数据中直接学习一切。然而,诸如分词(tokenization)之类的预处理步骤仍是构建真正端到端基础模型的障碍。「Mamba」作者之一的AlbertGu最新Paper又提出一系列新技术,实现了一种动态分块机制(dynamicchunking):它能自动学习内容与上下文相关的切分策略,并与模型的其余部分联...
2025-07-15 08:30:23 858浏览 0点赞 0回复 0收藏
随着大型语言模型(LLM)技术的飞速发展,以其为核心驱动的AI智能体正展现出前所未有的智能水平与适应能力,深刻改变着人类的生产与生活方式。如今,智能体不再是孤立存在的个体,而是逐渐形成了一个相互协作的生态系统,通过与其他智能体、工具及外部环境进行通信,共同完成复杂任务。在此背景下,智能体通信已成为未来AI生态系统的基石,众多组织纷纷投身于相关通信协议的研发,如Anthropic提出的MCP(ModelContextProtocol)...
2025-07-15 08:03:40 2321浏览 0点赞 0回复 0收藏
最近抱抱脸热门排行榜出现了一个R1变体模型,冲到了Top9。DeepSeekTNGR1T2Chimera模型构建于DeepSeekR10528、R1和V30324父模型之上,R1T2在智能与输出token长度之间达到了一个新的最佳平衡点。比常规的R1快约20%,并且比R10528快两倍以上;在GPQA和AIME24等基准测试中,比常规的R1更智能;与第一代R1ChimeraT0426相比,更智能且<think>token一致;总体表现良好,即使没有系统提示,它也有着令人愉悦的交流风格。模型选择建议R1T...
2025-07-10 07:29:34 1164浏览 0点赞 0回复 0收藏
强化学习(RL)是一种用于解决序列决策问题的重要机器学习范式,然而,RL依赖于大量的训练数据和计算资源,跨任务泛化能力方面的局限性。随着持续学习(CL)的兴起,持续强化学习(CRL)作为一种有前景的研究方向应运而生,旨在通过使智能体能够持续学习、适应新任务并保留先前获得的知识,来解决这些局限性。文章对CRL进行了全面的考察,重点关注其核心概念、挑战和方法,提出了一种新的CRL方法分类体系,从知识存储和或转移的...
2025-07-10 07:22:38 1263浏览 0点赞 0回复 0收藏
在数字化浪潮席卷各行业的今天,海量文档的智能处理与高效利用已成为开发者亟待解决的核心痛点。无论是构建智能知识库、优化信息检索,还是革新教育科技,精准、高效的文档解析能力都扮演着至关重要的角色。今天,我们要介绍的是一款专为开发者设计的强大文档解析产品——Doc2X。一、为什么选择Doc2X?Doc2X是一款强大的文档解析工具,它能够将PDF、图片等多种格式的文档精准转换为Markdown、LaTeX、HTML、Word等结构化或半结构...
2025-06-26 00:42:46 1245浏览 0点赞 0回复 0收藏
RAGAnything是一个综合性多模态文档处理RAG系统。该系统能够无缝处理和查询包含文本、图像、表格、公式等多模态内容的复杂文档,提供完整的检索增强(RAG)生成解决方案。核心特性🔄端到端多模态处理流水线提供从文档解析到多模态查询响应的完整处理链路,确保系统的一体化运行📄多格式文档支持支持PDF、Office文档(DOCDOCXPPTPPTXXLSXLSX)、图像等主流文档格式的统一处理和解析🧠多模态内容分析引擎针对图像、表格、公式和通用...
2025-06-26 00:37:44 1478浏览 0点赞 0回复 0收藏
GraphRAG是一种扩展的RAG范式,通过构建图结构来组织背景知识,其中节点代表实体、事件或主题,边代表它们之间的逻辑、因果或关联关系。它不仅检索直接相关的节点,还会遍历图以捕获相互连接的子图,从而发现隐藏的模式。GraphRAGvsRAGGraphRAG是否真的有效,以及在哪些场景下图结构能为RAG系统带来可衡量的好处?厦大和港理工提出的GraphRAGBench基准测试框架,旨在全面评估GraphRAG模型在分层知识检索和深度上下文推理中的表...
2025-06-13 06:10:43 1386浏览 0点赞 0回复 0收藏
独木不成林,随着基于大型语言模型(LLM)的多智能体系统(MAS)的崛起,我们见证了智能体团队在复杂任务中展现的惊人潜力,俨然形成了数字世界的"智慧军团"。然而,当这些"AI战队"深入医疗诊断、金融决策等关键领域时,你是否为这些安全隐患夜不能寐:攻击者"策反"智能体,让系统输出错误内容却浑然不觉?攻击者注入的病毒像"数字病毒"般在智能体间传播,导致集体表现出"中毒"现象?传统单agent防御策略在应用于多智能体系统时...
2025-06-13 06:07:00 1231浏览 0点赞 0回复 0收藏
语言并不总是推理的最自然或最有效的模态,特别是在涉及空间和几何信息的任务中。基于此,剑桥&Google等提出并开源了一种新的范式——视觉规划(VisualPlanning),它通过纯视觉表示进行规划,独立于文本。在这个范式中,规划是通过图像序列来执行的,这些图像序列在视觉领域编码了逐步推理的过程,类似于人类如何绘制草图或可视化未来的行动。推理范式的比较。传统方法(上两行)会生成冗长且不准确的文字计划,而视觉规划范式...
2025-05-30 05:41:27 1043浏览 0点赞 0回复 0收藏
LRMs在通过强化学习(RL)提升了推理能力,但,扩展到长文本场景(如120Ktokens)仍然是一个未解决的挑战,为此,阿里提出并开源了QwenLongL1框架,首个通过强化学习训练用于长文本情境推理的长文本情境大型推理模型(LRM)。QwenLongL132B优于OpenAIo3mini和Qwen3235BA22B等旗舰LRMs,其性能与Claude3.7SonnetThinking相当,展现出在最先进的LRMs中领先的性能。QwenLongL1是一个新颖的强化学习(RL)框架,旨在促进LRM从短上下文...
2025-05-30 05:33:09 972浏览 0点赞 0回复 0收藏
记忆是AI系统的基本组成部分,尤其是对于基于LLMs的Agents。首次将记忆表示分为三类:参数化记忆、上下文结构化记忆和上下文非结构化记忆,并介绍了六种基本的记忆操作:巩固、更新、索引、遗忘、检索和压缩。盘点了几十种记忆框架、产品、应用!通过将这些操作系统地映射到长期记忆、长上下文记忆、参数修改和多源记忆等最相关的研究主题中,从原子操作和表示类型的视角重新审视记忆系统,为AI中与记忆相关的研究、基准数据集...
2025-05-19 01:20:04 2616浏览 0点赞 0回复 0收藏
AgenticRAGR1是由北京大学研发的一项开源研究项目,旨在推动语言模型在自主检索与推理能力方面的能力边界。该项目通过引入强化学习策略(GRPO),构建了一个可自我规划、检索、推理与总结的智能体式RAG系统。核心亮点1.AgenticRAG架构:融合检索增强生成(RAG)与AgenticAI机制,模型不仅生成答案,还能“决定如何生成答案”。2.强化学习优化(GRPO):借助GeneralizedRelevancePolicyOptimization,让模型学会更合理地选择检索...
2025-05-06 00:47:01 2623浏览 0点赞 0回复 0收藏
尽管多模态大型语言模型(MultimodalLargeLanguageModels,MLLMs)显著扩展了LLMs以处理视觉、音频和视频等多种模态,但在多模态输入之间实现稳健的推理仍然是一个重大挑战。华东师大&字节跳动系统回顾了基于强化学习的MLLMs推理的最新进展,涵盖了关键的算法设计、奖励机制创新以及实际应用。一、MLLMs&RL基础MLLMs与MMCoT多模态大型语言模型(MLLMs):将大型语言模型(LLMs)与其他模态(如视觉、音频和视频)的模型结合,以...
2025-05-06 00:41:18 3247浏览 0点赞 0回复 0收藏
OpenAI大佬姚顺雨发表一篇名为“TheSecondHalf”博客,核心观点是人工智能(AI)的发展已经进入了一个新的阶段,即“下半场”:从现在开始,将把重点从解决问题转移到定义问题上;评估将比训练更为重要,不再只是问:“我们能否训练一个模型来解决X问题?”而是要问:“我们应该训练人工智能去做什么,以及我们如何衡量真正的进步?”;为了在AI的下半场取得成功,需要及时转变思维方式和技能组合,这些思维方式和技能组合或许...
2025-04-21 00:48:19 1635浏览 0点赞 0回复 0收藏
微软研究院发布了第一个开源的、原生的1bit大型语言模型(LLM):BitNetb1.582B4T:内存占用:BitNetb1.582B4T的非嵌入层内存占用仅为0.4GB,远低于其他全精度模型。能耗:估计的解码能耗为0.028焦耳,远低于其他模型。解码延迟:在CPU上,BitNetb1.582B4T的平均延迟为29ms,远低于其他模型。BitNetb1.582B4T参数规模达到20亿,在包含4Ttokens的语料库上进行训练,并在多个基准测试中表现出与同规模的领先全精度模型(LLaMA3.21...
2025-04-21 00:47:17 1550浏览 0点赞 0回复 0收藏
获得成就
已积累 7.1w 人气
获得 1 个点赞
获得 3 次收藏