PaperAgent
LV.5
日更,解读AI前沿技术热点Paper
声望 847
关注 0
粉丝 2
私信
主帖 83
回帖
最近抱抱脸热门排行榜出现了一个R1变体模型,冲到了Top9。DeepSeekTNGR1T2Chimera模型构建于DeepSeekR10528、R1和V30324父模型之上,R1T2在智能与输出token长度之间达到了一个新的最佳平衡点。比常规的R1快约20%,并且比R10528快两倍以上;在GPQA和AIME24等基准测试中,比常规的R1更智能;与第一代R1ChimeraT0426相比,更智能且<think>token一致;总体表现良好,即使没有系统提示,它也有着令人愉悦的交流风格。模型选择建议R1T...
5天前 812浏览 0点赞 0回复 0收藏
强化学习(RL)是一种用于解决序列决策问题的重要机器学习范式,然而,RL依赖于大量的训练数据和计算资源,跨任务泛化能力方面的局限性。随着持续学习(CL)的兴起,持续强化学习(CRL)作为一种有前景的研究方向应运而生,旨在通过使智能体能够持续学习、适应新任务并保留先前获得的知识,来解决这些局限性。文章对CRL进行了全面的考察,重点关注其核心概念、挑战和方法,提出了一种新的CRL方法分类体系,从知识存储和或转移的...
5天前 596浏览 0点赞 0回复 0收藏
在数字化浪潮席卷各行业的今天,海量文档的智能处理与高效利用已成为开发者亟待解决的核心痛点。无论是构建智能知识库、优化信息检索,还是革新教育科技,精准、高效的文档解析能力都扮演着至关重要的角色。今天,我们要介绍的是一款专为开发者设计的强大文档解析产品——Doc2X。一、为什么选择Doc2X?Doc2X是一款强大的文档解析工具,它能够将PDF、图片等多种格式的文档精准转换为Markdown、LaTeX、HTML、Word等结构化或半结构...
2025-06-26 00:42:46 753浏览 0点赞 0回复 0收藏
RAGAnything是一个综合性多模态文档处理RAG系统。该系统能够无缝处理和查询包含文本、图像、表格、公式等多模态内容的复杂文档,提供完整的检索增强(RAG)生成解决方案。核心特性🔄端到端多模态处理流水线提供从文档解析到多模态查询响应的完整处理链路,确保系统的一体化运行📄多格式文档支持支持PDF、Office文档(DOCDOCXPPTPPTXXLSXLSX)、图像等主流文档格式的统一处理和解析🧠多模态内容分析引擎针对图像、表格、公式和通用...
2025-06-26 00:37:44 1012浏览 0点赞 0回复 0收藏
GraphRAG是一种扩展的RAG范式,通过构建图结构来组织背景知识,其中节点代表实体、事件或主题,边代表它们之间的逻辑、因果或关联关系。它不仅检索直接相关的节点,还会遍历图以捕获相互连接的子图,从而发现隐藏的模式。GraphRAGvsRAGGraphRAG是否真的有效,以及在哪些场景下图结构能为RAG系统带来可衡量的好处?厦大和港理工提出的GraphRAGBench基准测试框架,旨在全面评估GraphRAG模型在分层知识检索和深度上下文推理中的表...
2025-06-13 06:10:43 988浏览 0点赞 0回复 0收藏
独木不成林,随着基于大型语言模型(LLM)的多智能体系统(MAS)的崛起,我们见证了智能体团队在复杂任务中展现的惊人潜力,俨然形成了数字世界的"智慧军团"。然而,当这些"AI战队"深入医疗诊断、金融决策等关键领域时,你是否为这些安全隐患夜不能寐:攻击者"策反"智能体,让系统输出错误内容却浑然不觉?攻击者注入的病毒像"数字病毒"般在智能体间传播,导致集体表现出"中毒"现象?传统单agent防御策略在应用于多智能体系统时...
2025-06-13 06:07:00 683浏览 0点赞 0回复 0收藏
语言并不总是推理的最自然或最有效的模态,特别是在涉及空间和几何信息的任务中。基于此,剑桥&Google等提出并开源了一种新的范式——视觉规划(VisualPlanning),它通过纯视觉表示进行规划,独立于文本。在这个范式中,规划是通过图像序列来执行的,这些图像序列在视觉领域编码了逐步推理的过程,类似于人类如何绘制草图或可视化未来的行动。推理范式的比较。传统方法(上两行)会生成冗长且不准确的文字计划,而视觉规划范式...
2025-05-30 05:41:27 662浏览 0点赞 0回复 0收藏
LRMs在通过强化学习(RL)提升了推理能力,但,扩展到长文本场景(如120Ktokens)仍然是一个未解决的挑战,为此,阿里提出并开源了QwenLongL1框架,首个通过强化学习训练用于长文本情境推理的长文本情境大型推理模型(LRM)。QwenLongL132B优于OpenAIo3mini和Qwen3235BA22B等旗舰LRMs,其性能与Claude3.7SonnetThinking相当,展现出在最先进的LRMs中领先的性能。QwenLongL1是一个新颖的强化学习(RL)框架,旨在促进LRM从短上下文...
2025-05-30 05:33:09 767浏览 0点赞 0回复 0收藏
记忆是AI系统的基本组成部分,尤其是对于基于LLMs的Agents。首次将记忆表示分为三类:参数化记忆、上下文结构化记忆和上下文非结构化记忆,并介绍了六种基本的记忆操作:巩固、更新、索引、遗忘、检索和压缩。盘点了几十种记忆框架、产品、应用!通过将这些操作系统地映射到长期记忆、长上下文记忆、参数修改和多源记忆等最相关的研究主题中,从原子操作和表示类型的视角重新审视记忆系统,为AI中与记忆相关的研究、基准数据集...
2025-05-19 01:20:04 1909浏览 0点赞 0回复 0收藏
AgenticRAGR1是由北京大学研发的一项开源研究项目,旨在推动语言模型在自主检索与推理能力方面的能力边界。该项目通过引入强化学习策略(GRPO),构建了一个可自我规划、检索、推理与总结的智能体式RAG系统。核心亮点1.AgenticRAG架构:融合检索增强生成(RAG)与AgenticAI机制,模型不仅生成答案,还能“决定如何生成答案”。2.强化学习优化(GRPO):借助GeneralizedRelevancePolicyOptimization,让模型学会更合理地选择检索...
2025-05-06 00:47:01 1673浏览 0点赞 0回复 0收藏
尽管多模态大型语言模型(MultimodalLargeLanguageModels,MLLMs)显著扩展了LLMs以处理视觉、音频和视频等多种模态,但在多模态输入之间实现稳健的推理仍然是一个重大挑战。华东师大&字节跳动系统回顾了基于强化学习的MLLMs推理的最新进展,涵盖了关键的算法设计、奖励机制创新以及实际应用。一、MLLMs&RL基础MLLMs与MMCoT多模态大型语言模型(MLLMs):将大型语言模型(LLMs)与其他模态(如视觉、音频和视频)的模型结合,以...
2025-05-06 00:41:18 2421浏览 0点赞 0回复 0收藏
OpenAI大佬姚顺雨发表一篇名为“TheSecondHalf”博客,核心观点是人工智能(AI)的发展已经进入了一个新的阶段,即“下半场”:从现在开始,将把重点从解决问题转移到定义问题上;评估将比训练更为重要,不再只是问:“我们能否训练一个模型来解决X问题?”而是要问:“我们应该训练人工智能去做什么,以及我们如何衡量真正的进步?”;为了在AI的下半场取得成功,需要及时转变思维方式和技能组合,这些思维方式和技能组合或许...
2025-04-21 00:48:19 1377浏览 0点赞 0回复 0收藏
微软研究院发布了第一个开源的、原生的1bit大型语言模型(LLM):BitNetb1.582B4T:内存占用:BitNetb1.582B4T的非嵌入层内存占用仅为0.4GB,远低于其他全精度模型。能耗:估计的解码能耗为0.028焦耳,远低于其他模型。解码延迟:在CPU上,BitNetb1.582B4T的平均延迟为29ms,远低于其他模型。BitNetb1.582B4T参数规模达到20亿,在包含4Ttokens的语料库上进行训练,并在多个基准测试中表现出与同规模的领先全精度模型(LLaMA3.21...
2025-04-21 00:47:17 1251浏览 0点赞 0回复 0收藏
Llama4(家族)发布并重回开源榜Top1,我梳理了Llama4第一手效果实测(编码、多模态、长上下文,啥啥都不行?)、本地部署、体验link:一、Llama4实测(真是水平如何)strawberry中有几个r,回答:2个R9.9与9.11哪个大“Llama4”反着输出结果:4amallL表格抽取,extractSwinTTNTS、Transformer'sThroughputLlama4给出了SwinV2T的结果Llama4编程,Llama4Maverick——Python六边形测试失败来自karminski的Llama4编程能力真是总结...
2025-04-08 07:20:33 1698浏览 0点赞 0回复 0收藏
几乎就在同一天,两个国内著名大模型厂商DeepSeek与阿里通义千问组团开源了模型:DeepSeekV30324(更美观的网页和游戏前端),Qwen2.5VL32BInstruct(以小博大):Qwen2.5vl32B模型72B对VLM来说太大?7B不够强!那么可以使用32B模型响应更符合人类偏好:调整输出样式以提供更详细、格式更好的答案,使其更符合人类偏好。数学推理:显著提高解决复杂数学问题的准确性。细粒度图像理解与推理:增强图像解析、内容识别、视觉逻辑推...
2025-03-26 09:39:51 1862浏览 0点赞 0回复 0收藏
尽管DeepSeekR1风格的模型在语言模型中已经取得了成功,但其在多模态领域的应用仍然有待深入探索。上交大等提出并开源VisualRFT,将RFT扩展到视觉任务,通过设计针对不同视觉任务的可验证奖励函数,提升LVLMs在视觉感知和推理任务中的性能。视觉强化微调(VisualRFT)的概述。与(a)数据驱动的视觉指令微调相比,(b)视觉强化微调(VisualRFT)在有限数据下更具数据效率。(c)成功地将RFT应用于一系列多模态任务,并在底部展...
2025-03-14 00:29:39 2363浏览 0点赞 0回复 0收藏
微软GraphRAG自提出,已历时快一年,PaperAgent对其发展历程进行了专门梳理与总结:去年4月,为解决传统RAG在全局性的查询总结任务上表现不佳,微软多部门联合提出ProjectGraphRAG(大模型驱动的KG);去年7月,微软正式开源GraphRAG项目,引起极大关注,至今23.2kstar,但落地时却面临巨大成本痛点(具体:LLM用于实体关系抽取+描述,社区总结);去年11月,为了上述痛点,微软发布了LazyGraphRAG,将数据索引成本降低1000倍,...
2025-03-14 00:21:24 3466浏览 0点赞 0回复 0收藏
​为解决现有检索增强生成(RAG)系统在模拟人类长期记忆的动态和关联性方面的局限性,一种新型框架HippoRAG2提出并将开源!在三个关键维度上评估持续学习能力:事实记忆、感知构建和关联性。HippoRAG2在所有基准类别中均超越了其他方法(RAPTOR、GraphRAG、LightRAG、HippoRAG),使其更接近真正的长期记忆系统。​HippoRAG2框架的核心思想:HippoRAG2基于HippoRAG的个性化PageRank算法,通过深度段落整合和更有效的在线LLM使...
2025-03-04 10:01:13 2514浏览 0点赞 0回复 0收藏
DeepSeek开源周并未结束,OneMoreThing:DeepSeekV3R1推理系统概述以及高达545%的成本利润率:通过以下方式优化吞吐量和延迟🔧跨节点EP驱动的批量扩展🔄计算通信重叠⚖️负载均衡DeepSeek在线服务的统计数据⚡每个H800节点每秒73.7k14.8k输入输出tokens🚀成本利润率545%图片DeepSeekV3R1推理系统的优化目标是:更大的吞吐,更低的延迟。图片大规模跨节点专家并行(EP)由于DeepSeekV3R1模型具有高度稀疏性,每层256个专家中仅激...
2025-03-04 09:57:07 2522浏览 0点赞 0回复 0收藏
文本丰富的图像(如文档、图表、场景图等)在现实场景中扮演着重要角色,准确理解这些图像对于自动化信息提取和优化用户交互至关重要。文本丰富图像理解(TextrichImageUnderstanding,TIU)领域涉及两个核心能力:感知(如文本检测、识别)理解(如信息抽取、视觉问答)多模态大语言模型(MLLMs)的出现为文本丰富的图像理解(TIU)领域带来了新的维度,系统地分析了该领域MLLMs的时间线、架构、训练流程、数据集与基准测试。TI...
2025-03-04 09:50:11 5155浏览 0点赞 0回复 0收藏
获得成就
已积累 6.2w 人气
获得 0 个点赞
获得 2 次收藏