现有文档RAG评测都在不足:数据太小、查询太假、证据太单一。华南理工&华科推出DOUBLEBENCH——迄今最大规模、多语言、多模态、多跳查询的文档RAG实战考场,用5168条人工校验query把9个embedding、4个MLLM、4个端到端框架统统拉到现实场景下评测,结果:检索仍是最大瓶颈,模型普遍“过度自信”地胡说八道。说到多模态大模型,国内快手也开源了KeyeVL1.58B(国产大模型越来越好,就在昨天Claude点名全面封禁中国公司,离大谱)...
通用大语言模型(LLM)在科学场景科学大语言模型(SciLLMs)“水土不服”——数据异构、跨尺度、强不确定性。上海AILab主导,25家研究机构共同参入,几十位研究人员首次系统梳理270+训练集、190+评测集,提出“科学数据分层框架”与“智能体闭环科研”新范式。按六大学科分类的著名科学大语言模型(SciLLMs)时间线概览,涵盖2019年至2025年初。科学数据统一分类法层级示例对LLM的挑战事实层光谱曲线、测序读长高噪声、单位不统...
LLM时代,RAG已成为知识密集型任务的标准范式。然而,RAG系统在处理长上下文时面临两个核心挑战:延迟高:TimetoFirstToken(TTFT)随上下文长度呈二次增长;内存贵:KV缓存随token数线性增长,导致吞吐量下降。传统方法试图通过稀疏注意力、上下文压缩等手段缓解,而Meta超级智能Lab首次针对RAG的特殊结构进行优化。(Code、Paper链接在文末)RAG的“隐藏结构”:块对角注意力稀疏性RAG上下文中的检索段落往往:语义差异大(多...
由LLM驱动的代码生成智能体正在革新软件开发范式,北大对该领域进行了系统的综述(论文、仓库链接在文末)。太长不看版维度现状挑战未来能力单函数→仓库级代码;单Agent→多Agent协作领域知识、意图理解、长程依赖、多模态持续学习、人机混合、意图结果闭环工程GitHubCopilot→Cursor→ClaudeCode三代产品幻觉级联、工具安全、成本爆炸轻量化、可信执行、动态工具链评测HumanEval→SWEBench→SECBench维度单一、场景失真、成本...
2025-08-29 06:38:38 2652浏览 0点赞 0回复 0收藏
1.表格让大模型头疼?文本是线性的,而表格是二维、结构多变、目的多样的——从严谨的数据库到多层嵌套的Excel,再到Wikipedia的Infobox。把LLM处理表格的“痛苦”总结为三点:痛点概况任务单一90%的Benchmark都在考「检索+简单数学」,真正需要推理的很少输入复杂就崩长表、多表、层级表、跨文档表,人类80+分,SOTA模型50分不到表示不统一同一张表换个JSONHTMLMarkdown,性能就能掉5个点左侧用TextToSql可解决,相比之下,右...
2025-08-29 06:36:43 1142浏览 0点赞 0回复 0收藏
随着GPT4、Qwen3、Llama3等超大规模模型出现,传统GLUESuperGLUE已无法覆盖语言模型的能力边界,亟需新的评估体系。核心痛点:数据污染导致分数虚高;文化语言偏差带来不公平评估;过程可信性与动态环境缺失。中国科学院&中科大&华南理工大学&哈工大等等。整体框架速览图1:283个代表性基准的时间轴,纵览20182025的评估演进。三大类别覆盖维度代表基准通用能力语言核心、知识、推理GLUE,MMLU,BIGBench,ChatbotArena领域特化自...
2025-08-29 06:34:13 2243浏览 0点赞 0回复 0收藏
OpenAIGPT5的systemprompt被曝光在github上整个提示词大概17803Tokens,78960Charactershttps:platform.openai.comtokenizer关于OpenAI这个提示词,有一些可以学习的地方,做了八点分析总结,供小伙伴参考:一、介绍和谄媚热情、积极且真诚地与用户互动,同时避免任何毫无根据或谄媚的奉承。二、默认风格和语气你的默认风格应该是自然的、随和的、俏皮的,而不是正式的、呆板的、生硬的,除非话题内容或用户要求有所不同...
2025-08-28 07:29:59 1317浏览 0点赞 0回复 0收藏
社区问答(CQA)平台(如StackOverflow、AskUbuntu)沉淀了大量高质量知识,但在工业界落地时仍面临三大挑战:静态知识不足:仅靠官方文档难以覆盖真实业务场景的“坑”。历史QA质量参差不齐:早期答案可能已被更好答案取代。实时性+存储爆炸:新问题持续涌入,如何快速检索并控制存储增长?现有方法要么只检索社区历史,要么只用静态文档,缺少“动态反思+高效存储”的机制。ComRAG正是为了解决这些痛点而生。ComRAG框架概览图...
2025-08-28 07:25:16 1110浏览 0点赞 0回复 0收藏
强化学习(RL)与视觉智能交叉领域的最新进展,已催生出不仅能感知复杂视觉场景,还能在其中进行推理、生成并采取行动的智能体。NUS&浙江大学&香港中文大学对这一快速发展领域进行了批判性且及时的系统梳理:首先形式化视觉RL问题,并追溯策略优化策略的演进:从RLHF到可验证奖励范式,从近端策略优化(PPO)到群组相对策略优化(GRPO)。将200余篇代表性工作归纳为四大主题支柱:多模态大语言模型、视觉生成、统一模型框架,以...
2025-08-15 07:40:30 2065浏览 0点赞 0回复 0收藏
LLM的发展极大地推动了自然语言理解和决策制定的进步,展现了在推理、规划和工具使用方面的显著能力。LLM时代,自主智能体已成为实现AGI的强大范式。然而,随着基于智能体系统的复杂性增加,智能体工作流(AgentWorkflow)——一种结构化的编排框架——已成为实现可扩展、可控和安全AI行为的核心。智能体工作流的目标是使智能体能够在涉及复杂多步骤任务的真实世界场景中完全自主地运行,Paper对智能体工作流系统进行了全面综述...
2025-08-15 07:23:07 2926浏览 0点赞 0回复 0收藏
在LLM时代,对齐(alignment)已成为追求更可靠、更可控、更强大的机器智能的一个基础但具有挑战性的问题。推理模型和对话式人工智能系统近期的成功凸显了强化学习(RL)在提升这些系统中的关键作用,通过逆强化学习(IRL)的视角,全面回顾了LLM对齐的最新进展。一、强化学习基础回顾了马尔可夫决策过程(MDP)的基本概念,包括状态空间、动作空间、转移动态、奖励函数等。定义:马尔可夫决策过程(MDP)是强化学习中的一个核...
2025-08-01 06:25:53 995浏览 0点赞 0回复 0收藏
本期推文将介绍一项面向工业CAD建模序列精准生成的新颖多模态大语言模型——CADGPT,该研究成功入选CCFA类人工智能顶级会议AAAI2025。在现代制造业中,计算机辅助设计(CAD)工具已成为工业产品开发不可或缺的关键技术,广泛应用于汽车、航空、电子、机械等多个核心行业。尽管CAD极大提升了设计的精度与效率,但其建模过程仍高度依赖人工操作与工程经验,尤其在三维空间建模、结构组合、序列构建等环节对空间推理与几何知识的要...
2025-08-01 06:23:39 7127浏览 0点赞 0回复 0收藏
近期Coze开源的消息刷爆了朋友圈,这对于想通过搭建Agent解决复杂问题的企业开发者而言简直是超大好消息!通过Coze平台,企业用户可以通过零代码或低代码的方式,快速搭建出解放生产力的AI工作流,辅助员工高效完成各类的复杂任务。今天,我就来分享一个用Coze搭建文档智能问答Bot的保姆级教程。图片图片来自扣子官方我们经常会遇到从产品手册、技术白皮书、合同条款、内部报告……等文档中快速精准地提取所需信息的情况,这...
2025-07-31 23:58:20 4996浏览 0点赞 0回复 0收藏
尽管近年来语言模型取得了惊人进展,这一进步主要源于从面向特定任务的专用模型转向基于强大架构(如Transformer)的通用模型——这些模型能从原始数据中直接学习一切。然而,诸如分词(tokenization)之类的预处理步骤仍是构建真正端到端基础模型的障碍。「Mamba」作者之一的AlbertGu最新Paper又提出一系列新技术,实现了一种动态分块机制(dynamicchunking):它能自动学习内容与上下文相关的切分策略,并与模型的其余部分联...
2025-07-15 08:30:23 1124浏览 0点赞 0回复 0收藏
随着大型语言模型(LLM)技术的飞速发展,以其为核心驱动的AI智能体正展现出前所未有的智能水平与适应能力,深刻改变着人类的生产与生活方式。如今,智能体不再是孤立存在的个体,而是逐渐形成了一个相互协作的生态系统,通过与其他智能体、工具及外部环境进行通信,共同完成复杂任务。在此背景下,智能体通信已成为未来AI生态系统的基石,众多组织纷纷投身于相关通信协议的研发,如Anthropic提出的MCP(ModelContextProtocol)...
2025-07-15 08:03:40 3291浏览 0点赞 0回复 0收藏
最近抱抱脸热门排行榜出现了一个R1变体模型,冲到了Top9。DeepSeekTNGR1T2Chimera模型构建于DeepSeekR10528、R1和V30324父模型之上,R1T2在智能与输出token长度之间达到了一个新的最佳平衡点。比常规的R1快约20%,并且比R10528快两倍以上;在GPQA和AIME24等基准测试中,比常规的R1更智能;与第一代R1ChimeraT0426相比,更智能且<think>token一致;总体表现良好,即使没有系统提示,它也有着令人愉悦的交流风格。模型选择建议R1T...
2025-07-10 07:29:34 1497浏览 0点赞 0回复 0收藏
强化学习(RL)是一种用于解决序列决策问题的重要机器学习范式,然而,RL依赖于大量的训练数据和计算资源,跨任务泛化能力方面的局限性。随着持续学习(CL)的兴起,持续强化学习(CRL)作为一种有前景的研究方向应运而生,旨在通过使智能体能够持续学习、适应新任务并保留先前获得的知识,来解决这些局限性。文章对CRL进行了全面的考察,重点关注其核心概念、挑战和方法,提出了一种新的CRL方法分类体系,从知识存储和或转移的...
2025-07-10 07:22:38 1872浏览 0点赞 0回复 0收藏
在数字化浪潮席卷各行业的今天,海量文档的智能处理与高效利用已成为开发者亟待解决的核心痛点。无论是构建智能知识库、优化信息检索,还是革新教育科技,精准、高效的文档解析能力都扮演着至关重要的角色。今天,我们要介绍的是一款专为开发者设计的强大文档解析产品——Doc2X。一、为什么选择Doc2X?Doc2X是一款强大的文档解析工具,它能够将PDF、图片等多种格式的文档精准转换为Markdown、LaTeX、HTML、Word等结构化或半结构...
2025-06-26 00:42:46 1869浏览 0点赞 0回复 0收藏
RAGAnything是一个综合性多模态文档处理RAG系统。该系统能够无缝处理和查询包含文本、图像、表格、公式等多模态内容的复杂文档,提供完整的检索增强(RAG)生成解决方案。核心特性🔄端到端多模态处理流水线提供从文档解析到多模态查询响应的完整处理链路,确保系统的一体化运行📄多格式文档支持支持PDF、Office文档(DOCDOCXPPTPPTXXLSXLSX)、图像等主流文档格式的统一处理和解析🧠多模态内容分析引擎针对图像、表格、公式和通用...
2025-06-26 00:37:44 2245浏览 0点赞 0回复 0收藏
GraphRAG是一种扩展的RAG范式,通过构建图结构来组织背景知识,其中节点代表实体、事件或主题,边代表它们之间的逻辑、因果或关联关系。它不仅检索直接相关的节点,还会遍历图以捕获相互连接的子图,从而发现隐藏的模式。GraphRAGvsRAGGraphRAG是否真的有效,以及在哪些场景下图结构能为RAG系统带来可衡量的好处?厦大和港理工提出的GraphRAGBench基准测试框架,旨在全面评估GraphRAG模型在分层知识检索和深度上下文推理中的表...
2025-06-13 06:10:43 1831浏览 0点赞 0回复 0收藏