PaperAgent
LV.5
日更,解读AI前沿技术热点Paper
声望 815
关注 0
粉丝 2
私信
主帖 79
回帖
GraphRAG是一种扩展的RAG范式,通过构建图结构来组织背景知识,其中节点代表实体、事件或主题,边代表它们之间的逻辑、因果或关联关系。它不仅检索直接相关的节点,还会遍历图以捕获相互连接的子图,从而发现隐藏的模式。GraphRAGvsRAGGraphRAG是否真的有效,以及在哪些场景下图结构能为RAG系统带来可衡量的好处?厦大和港理工提出的GraphRAGBench基准测试框架,旨在全面评估GraphRAG模型在分层知识检索和深度上下文推理中的表...
5天前 639浏览 0点赞 0回复 0收藏
独木不成林,随着基于大型语言模型(LLM)的多智能体系统(MAS)的崛起,我们见证了智能体团队在复杂任务中展现的惊人潜力,俨然形成了数字世界的"智慧军团"。然而,当这些"AI战队"深入医疗诊断、金融决策等关键领域时,你是否为这些安全隐患夜不能寐:攻击者"策反"智能体,让系统输出错误内容却浑然不觉?攻击者注入的病毒像"数字病毒"般在智能体间传播,导致集体表现出"中毒"现象?传统单agent防御策略在应用于多智能体系统时...
5天前 279浏览 0点赞 0回复 0收藏
语言并不总是推理的最自然或最有效的模态,特别是在涉及空间和几何信息的任务中。基于此,剑桥&Google等提出并开源了一种新的范式——视觉规划(VisualPlanning),它通过纯视觉表示进行规划,独立于文本。在这个范式中,规划是通过图像序列来执行的,这些图像序列在视觉领域编码了逐步推理的过程,类似于人类如何绘制草图或可视化未来的行动。推理范式的比较。传统方法(上两行)会生成冗长且不准确的文字计划,而视觉规划范式...
2025-05-30 05:41:27 404浏览 0点赞 0回复 0收藏
LRMs在通过强化学习(RL)提升了推理能力,但,扩展到长文本场景(如120Ktokens)仍然是一个未解决的挑战,为此,阿里提出并开源了QwenLongL1框架,首个通过强化学习训练用于长文本情境推理的长文本情境大型推理模型(LRM)。QwenLongL132B优于OpenAIo3mini和Qwen3235BA22B等旗舰LRMs,其性能与Claude3.7SonnetThinking相当,展现出在最先进的LRMs中领先的性能。QwenLongL1是一个新颖的强化学习(RL)框架,旨在促进LRM从短上下文...
2025-05-30 05:33:09 493浏览 0点赞 0回复 0收藏
记忆是AI系统的基本组成部分,尤其是对于基于LLMs的Agents。首次将记忆表示分为三类:参数化记忆、上下文结构化记忆和上下文非结构化记忆,并介绍了六种基本的记忆操作:巩固、更新、索引、遗忘、检索和压缩。盘点了几十种记忆框架、产品、应用!通过将这些操作系统地映射到长期记忆、长上下文记忆、参数修改和多源记忆等最相关的研究主题中,从原子操作和表示类型的视角重新审视记忆系统,为AI中与记忆相关的研究、基准数据集...
2025-05-19 01:20:04 1387浏览 0点赞 0回复 0收藏
AgenticRAGR1是由北京大学研发的一项开源研究项目,旨在推动语言模型在自主检索与推理能力方面的能力边界。该项目通过引入强化学习策略(GRPO),构建了一个可自我规划、检索、推理与总结的智能体式RAG系统。核心亮点1.AgenticRAG架构:融合检索增强生成(RAG)与AgenticAI机制,模型不仅生成答案,还能“决定如何生成答案”。2.强化学习优化(GRPO):借助GeneralizedRelevancePolicyOptimization,让模型学会更合理地选择检索...
2025-05-06 00:47:01 1241浏览 0点赞 0回复 0收藏
尽管多模态大型语言模型(MultimodalLargeLanguageModels,MLLMs)显著扩展了LLMs以处理视觉、音频和视频等多种模态,但在多模态输入之间实现稳健的推理仍然是一个重大挑战。华东师大&字节跳动系统回顾了基于强化学习的MLLMs推理的最新进展,涵盖了关键的算法设计、奖励机制创新以及实际应用。一、MLLMs&RL基础MLLMs与MMCoT多模态大型语言模型(MLLMs):将大型语言模型(LLMs)与其他模态(如视觉、音频和视频)的模型结合,以...
2025-05-06 00:41:18 1754浏览 0点赞 0回复 0收藏
OpenAI大佬姚顺雨发表一篇名为“TheSecondHalf”博客,核心观点是人工智能(AI)的发展已经进入了一个新的阶段,即“下半场”:从现在开始,将把重点从解决问题转移到定义问题上;评估将比训练更为重要,不再只是问:“我们能否训练一个模型来解决X问题?”而是要问:“我们应该训练人工智能去做什么,以及我们如何衡量真正的进步?”;为了在AI的下半场取得成功,需要及时转变思维方式和技能组合,这些思维方式和技能组合或许...
2025-04-21 00:48:19 1102浏览 0点赞 0回复 0收藏
微软研究院发布了第一个开源的、原生的1bit大型语言模型(LLM):BitNetb1.582B4T:内存占用:BitNetb1.582B4T的非嵌入层内存占用仅为0.4GB,远低于其他全精度模型。能耗:估计的解码能耗为0.028焦耳,远低于其他模型。解码延迟:在CPU上,BitNetb1.582B4T的平均延迟为29ms,远低于其他模型。BitNetb1.582B4T参数规模达到20亿,在包含4Ttokens的语料库上进行训练,并在多个基准测试中表现出与同规模的领先全精度模型(LLaMA3.21...
2025-04-21 00:47:17 944浏览 0点赞 0回复 0收藏
Llama4(家族)发布并重回开源榜Top1,我梳理了Llama4第一手效果实测(编码、多模态、长上下文,啥啥都不行?)、本地部署、体验link:一、Llama4实测(真是水平如何)strawberry中有几个r,回答:2个R9.9与9.11哪个大“Llama4”反着输出结果:4amallL表格抽取,extractSwinTTNTS、Transformer'sThroughputLlama4给出了SwinV2T的结果Llama4编程,Llama4Maverick——Python六边形测试失败来自karminski的Llama4编程能力真是总结...
2025-04-08 07:20:33 1392浏览 0点赞 0回复 0收藏
几乎就在同一天,两个国内著名大模型厂商DeepSeek与阿里通义千问组团开源了模型:DeepSeekV30324(更美观的网页和游戏前端),Qwen2.5VL32BInstruct(以小博大):Qwen2.5vl32B模型72B对VLM来说太大?7B不够强!那么可以使用32B模型响应更符合人类偏好:调整输出样式以提供更详细、格式更好的答案,使其更符合人类偏好。数学推理:显著提高解决复杂数学问题的准确性。细粒度图像理解与推理:增强图像解析、内容识别、视觉逻辑推...
2025-03-26 09:39:51 1554浏览 0点赞 0回复 0收藏
尽管DeepSeekR1风格的模型在语言模型中已经取得了成功,但其在多模态领域的应用仍然有待深入探索。上交大等提出并开源VisualRFT,将RFT扩展到视觉任务,通过设计针对不同视觉任务的可验证奖励函数,提升LVLMs在视觉感知和推理任务中的性能。视觉强化微调(VisualRFT)的概述。与(a)数据驱动的视觉指令微调相比,(b)视觉强化微调(VisualRFT)在有限数据下更具数据效率。(c)成功地将RFT应用于一系列多模态任务,并在底部展...
2025-03-14 00:29:39 2009浏览 0点赞 0回复 0收藏
微软GraphRAG自提出,已历时快一年,PaperAgent对其发展历程进行了专门梳理与总结:去年4月,为解决传统RAG在全局性的查询总结任务上表现不佳,微软多部门联合提出ProjectGraphRAG(大模型驱动的KG);去年7月,微软正式开源GraphRAG项目,引起极大关注,至今23.2kstar,但落地时却面临巨大成本痛点(具体:LLM用于实体关系抽取+描述,社区总结);去年11月,为了上述痛点,微软发布了LazyGraphRAG,将数据索引成本降低1000倍,...
2025-03-14 00:21:24 3005浏览 0点赞 0回复 0收藏
​为解决现有检索增强生成(RAG)系统在模拟人类长期记忆的动态和关联性方面的局限性,一种新型框架HippoRAG2提出并将开源!在三个关键维度上评估持续学习能力:事实记忆、感知构建和关联性。HippoRAG2在所有基准类别中均超越了其他方法(RAPTOR、GraphRAG、LightRAG、HippoRAG),使其更接近真正的长期记忆系统。​HippoRAG2框架的核心思想:HippoRAG2基于HippoRAG的个性化PageRank算法,通过深度段落整合和更有效的在线LLM使...
2025-03-04 10:01:13 2242浏览 0点赞 0回复 0收藏
DeepSeek开源周并未结束,OneMoreThing:DeepSeekV3R1推理系统概述以及高达545%的成本利润率:通过以下方式优化吞吐量和延迟🔧跨节点EP驱动的批量扩展🔄计算通信重叠⚖️负载均衡DeepSeek在线服务的统计数据⚡每个H800节点每秒73.7k14.8k输入输出tokens🚀成本利润率545%图片DeepSeekV3R1推理系统的优化目标是:更大的吞吐,更低的延迟。图片大规模跨节点专家并行(EP)由于DeepSeekV3R1模型具有高度稀疏性,每层256个专家中仅激...
2025-03-04 09:57:07 2206浏览 0点赞 0回复 0收藏
文本丰富的图像(如文档、图表、场景图等)在现实场景中扮演着重要角色,准确理解这些图像对于自动化信息提取和优化用户交互至关重要。文本丰富图像理解(TextrichImageUnderstanding,TIU)领域涉及两个核心能力:感知(如文本检测、识别)理解(如信息抽取、视觉问答)多模态大语言模型(MLLMs)的出现为文本丰富的图像理解(TIU)领域带来了新的维度,系统地分析了该领域MLLMs的时间线、架构、训练流程、数据集与基准测试。TI...
2025-03-04 09:50:11 4367浏览 0点赞 0回复 0收藏
DeepSeek官推发布了最新技术成果NSA:一种面向硬件且支持原生训练的稀疏注意力机制,专为超快长上下文训练与推理设计。NSA的核心组成:动态分层稀疏策略粗粒度的token压缩细粒度的token选择💡NSA针对现代硬件进行了优化设计,显著提升了推理速度,并有效降低了预训练成本——同时不损失性能。在通用基准测试、长文本任务和基于指令的推理任务中,NSA的表现均能达到甚至超越传统全注意力模型的水平。1.动态分层稀疏策略NSA的核心...
2025-02-21 12:18:57 2540浏览 0点赞 0回复 0收藏
继GraphRAG之后,微软又发布PIKERAG,主打在复杂企业场景中私域知识提取、推理和应用能力,PIKERAG已在工业制造、采矿、制药等领域进行了测试,显著提升了问答准确率。demo示例:多层次异构的知识库构建与检索+自我进化的领域知识学习RAG系统在满足现实世界应用的复杂和多样化需求方面仍然面临挑战。仅依靠直接检索不足以从专业语料库中提取深度领域特定知识并进行逻辑推理。企业场景复杂多样的Query基于此,微软亚洲研究院提出...
2025-02-14 13:06:05 5120浏览 0点赞 0回复 0收藏
将推理与RAG相结合仍面临挑战,例如复杂查询需要多步分解,且LLMs难以生成精确的子查询,导致检索效率低下。人类思维过程与DeepRAG的对应关系。具体来说,检索叙事确保了结构化和自适应的检索流程,根据之前检索到的信息生成子查询,并且原子决策动态地决定是否检索外部知识,或者仅依赖于每个子查询的参数知识。中科院&中科大&腾讯微信AI部联合推出最新(2025.02)DeepRAG,让大型语言模型逐步推理检索:DeepRAG框架将检索增强...
2025-02-05 18:09:35 3494浏览 0点赞 0回复 0收藏
Kimi发布新一代多模态思考模型k1.5,在竞赛数学、代码能力及视觉思考等测试中,k1.5模型性能已达到全球领先模型OpenAIo1正式版水平,月之暗面也成为OpenAI之外,全球第二家到达该水平的人工智能企业。Kimi1.5longCoT评测结果longtoshort,用长链式思考技术改进短链式思考模型,在短链式推理性能测试中,k1.5模型在数学、代码、视觉多模态和通用能力等方面到达或超越GPT4o、ClaudeSonnet3.5等全球领先模型。Kimi1.5shortCoT评测...
2025-01-22 11:58:39 3336浏览 0点赞 0回复 0收藏
获得成就
已积累 5.5w 人气
获得 0 个点赞
获得 2 次收藏