NLP前沿1
LV.3
一手ai news分享 & 热点paper解读
声望 254
关注 0
粉丝 0
私信
主帖 34
回帖
这个工作讲的是如何沉淀Agent过去的执行经验,让Agent性能越来越好。论文:https:arxiv.orgpdf2507.06229代码:https:github.comOPPOPersonalAIAgentKB先看结果,提升很大。分别在GAIA、SWE上验证了。内容蛮简单,但是细节很多。沉淀Agent过去的执行经验。那首先得有个经验库把,经验库怎么构造,怎么召回。有了经验库,他们又折腾了一个MultiAgent的系统。然后每个Agent里边又有一个ReasonRetrieveRefine的流程。对应到下左图...
2025-07-21 06:35:18 800浏览 0点赞 0回复 0收藏
在当今数字化时代,文档处理和翻译需求日益增长,尤其对于科研人员、学生以及企业专业人士来说,高效、准确地处理复杂文档是提升工作效率的关键。今天,我要向大家介绍一款备受瞩目的智能文档处理工具——Doc2X。它以其卓越的性能和强大的功能,正在成为众多用户的首选。官网地址:https:doc2x.noedgeai.com日常接触的知识库源文件,大多都是PDF格式,尤其是包含扫描件、学术论文、产品手册和财报的。这些文档的特点就是——排...
2025-06-29 23:41:03 1037浏览 0点赞 0回复 0收藏
在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉RAG方法受限于定义的固定流程,难以有效激活模型的推理能力。来自阿里巴巴通义实验室的最新研究成果——VRAGRL(EmpowerVisionPerceptionBasedRAGforVisuallyRichInformationUnderstandingviaIterativeReaso...
2025-06-16 07:56:18 1087浏览 0点赞 0回复 0收藏
去年底的时候,笔者写过,与其在RAG系统上雕花,可以重新思考一下,自己的业务场景是否非RAG不可吗?随着去年大模型的蓬勃发展,长度外推、更长的上下文模型,更厉害的中文底座大模型,都可以让整个系统的压力往生成部分上迁移。后来笔者造了一个词,文档片段化。对于常规的pdf问答档问答,基本上都能使用单一的大模型覆盖到了。但是对于知识库,文档库的问答,似乎RAG还是必不可少的。但是如果生成模型能力更强了,那与其在思...
2025-06-04 06:19:46 932浏览 0点赞 0回复 0收藏
论文分享,ReinforcementLearningforReasoninginLargeLanguageModelswithOneTrainingExample这个论文看起来挺有意思,比较反常识,代码开源:https:github.comypwang61OneShotRLVR。在Math500上,让Qwen2.5Math1.5B性能翻倍,从36%提升到73.6%。让Qwen2.5Math7B,从51%提升到79.2%。仅需要1个样本进行强化学习训练即可达到。如下图,最终收敛跟蓝色线(一个1000多个样本的数据集)训练出来的效果差不多。那这个样本到底是个什么...
2025-05-21 06:48:13 1429浏览 0点赞 0回复 0收藏
论文笔记分享,ReasoningModelsCanBeEffectiveWithoutThinking。ucberkeley。目前主流的推理模型在解决问题时,通常会有一个think阶段。这种方式虽然结果会大幅提升,但消耗的计算资源却不少。所以,这个文章研究的问题是:AI真的需要这么“认真思考”吗?注:本文写于o3发布之前,o3的思考充分利用工具能力,模型即产品,有一点跳脱o1版推理大模型的范畴了。另外,今天开源的Gemini2.5Flash,支持了thinkingbudget,有一些理念...
2025-04-23 07:14:33 1633浏览 0点赞 0回复 0收藏
Meta开源llama4,原生多模态模型,惯例,支持200多种语言,除了中文。有点堆活,主要特色是,可以单张GPU运行近1000wtoken上下文的模型,所以直接对标gemini了?1000万token上下文窗口意味着什么?相当于可以处理20多小时的视频内容(因为它是原生多模态模型)。三款全新模型同步发布Scout:17B激活参数(16个专家)。速度极快,原生多模态,智能程度高。达到业界领先的1000万+token上下文窗口,并且可以在单个GPU上运行!Maver...
2025-04-10 07:06:26 2054浏览 0点赞 0回复 0收藏
一篇对deepseekr1论文补漏的文章,做了很多额外的实验,内容很到位,标题:UnderstandingR1ZeroLikeTraining:ACriticalPerspective。论文地址:https:github.comsailsgunderstandr1zeroblobmainunderstandr1zero.pdf基础模型分析验证模板对几种基础模型的影响观察结果如下:模板对模型是回答question,还是补全question很重要测试的几个基础模型在RL之前已经具备数学解题能力Llama和DeepSeek模型使用R1模板时回答能力显著提升De...
2025-03-28 00:47:51 2019浏览 0点赞 0回复 0收藏
Qwen2.5Omni7B开源,Qwen的第一个端到端的多模态模型,可以文本、图像、音频和视频输入,同时以流式方式生成文本和自然语音回复。提出了ThinkerTalker架构。PR还没合进去,要注意安装方式评测的榜似乎画的有点赶,看不出信息量。提出了一种新的位置嵌入,称为TMRoPE(时间对齐多模态RoPE),用于同步视频输入的时戳与音频。资源占用:理论值如下,实际要在高1.2倍,看起来消耗有点大。瞄下代码,关于输入,每个模态都有专门的处...
2025-03-28 00:45:18 2465浏览 0点赞 0回复 0收藏
基于图的RAG统一框架indepth分析作者:港中深与华为的研究人员核心速览研究背景研究问题:这篇文章要解决的问题是如何在统一框架下对基于图的检索增强生成(RAG)方法进行系统的比较和分析。现有的基于图的RAG方法没有在同一实验设置下进行系统的比较。研究难点:包括缺乏统一的框架来抽象和比较各种基于图的RAG方法;现有工作主要关注整体性能评估而非单个组件的性能;以及缺乏对各种方法在准确性和效率方面的全面比较。相关工作...
2025-03-18 07:49:16 3292浏览 0点赞 0回复 0收藏
论文笔记,LongRoPE2:NearLosslessLLMContextWindowScaling,https:arxiv.orgpdf2502.20082。longropev1的升级工作,应对长度外推的。longropev1简单回顾,核心思想是非均匀插值+渐进式微调:对比NTK、YaRN之类的插值方式,LongROPE的每个频率都有自己的缩放因子。所以先进行基于困惑度的进化搜索,得到每个rope维度的最佳缩放因子。在应用当前阶段的RescaledRoPE后,对模型进行微调,让模型权重适应新的上下文窗口大小和位置编...
2025-03-06 09:15:11 2734浏览 0点赞 0回复 0收藏
今天开源了deepseekv3中提到的的FP8GEMM内核。300行代码的暴力cuda美学,看不太懂,但是每天都可以打个酱油支持普通的矩阵乘法以及MixofExperts分组矩阵乘法。使用CUDA编写,安装时无需编译,所有内核在运行时通过轻量级的即时编译(JIT)模块动态编译。DeepGEMM设计,避免了对CUTLASS和CuTe的过度依赖,采用了更简洁的设计,核心代码只有大约300行。整个库就是非常“轻量化”,但同时性能又很强大,甚至超过了专家调优的库。在...
2025-02-26 13:47:43 2872浏览 0点赞 0回复 0收藏
最近在折腾DeepSeekR1的私有部署,发现不少开发者都遇到了类似的困扰。明明按照文档一步步来,却总是会碰到这样那样的问题分片下载老是断,模型合并偶尔出错,环境配置更是让人头大。要是再遇到多机分布式、高并发或者国产芯片这些场景,那就更不好处理了。正好最近看到一个挺有意思的开源项目GPUStack(https:github.comgpustackgpustack)。它用Apache协议开源,主要就是为了解决DeepSeekR1这类大模型的部署问题。试用下来体验...
2025-02-18 11:50:42 5304浏览 0点赞 0回复 0收藏
这个工作目标是,找到一种简单的方法,可以实现testtimescalling。关键点有2个,构建高质量的监督数据1k,用于监督微调;一个BudgetForcing的方法,用于限定模型的推理过程。经过这么一折腾,模型的性能随着推理token数量变长而编号。如何构建高质量的1k数据初始收集:从16个不同的来源收集了59,029个问题,包括NuminaMATH、AIME、OlympicArena、OmniMath、AGIEval等。最终筛选:通过质量、难度和多样性三个标准,从59K个问题中...
2025-02-07 14:07:32 2254浏览 0点赞 0回复 0收藏
📜摘要检索增强生成(RAG)在开放域问答任务中表现出色。然而,传统搜索引擎可能会检索浅层内容,限制了大型语言模型(LLM)处理复杂、多层次信息的能力。为了解决这个问题,我们引入了WebWalkerQA,一个旨在评估LLM执行网页遍历能力的基准。它评估LLM系统性地遍历网站子页面以获取对应信息的能力。同时我们提出了WebWalker,一个通过explorercritic范式模拟人类网页导航的multiagent框架。广泛的实验结果表明,WebWalkerQA具有...
2025-01-23 10:07:24 2448浏览 0点赞 0回复 0收藏
CAG:CacheAugmentedGeneration缓存增强生成。不要做RAG了:当缓存增强生成对于知识任务就足够时检索增强生成(RAG)作为一种通过整合外部知识源来增强语言模型的有效方法,已经得到了广泛应用。然而,RAG引入了检索延迟、文档选择潜在错误和系统复杂性增加等挑战。随着具有显著扩展上下文窗口的大型语言模型(LLMs)的出现,本文提出了一种替代范式,即缓存增强生成(CAG),它绕过了实时检索。我们的方法涉及预先加载所有相关...
2025-01-14 13:14:55 2580浏览 0点赞 0回复 0收藏
langchain也送来新年礼物了,对标openaicanvas的项目开源。OpenCanvas不是又一个AI聊天机器人。它是一个开源的Web应用,可以让你与AI助手协同工作,以更高效、更智能的方式创作文档和代码。它汲取了OpenAI“Canvas”的灵感,但又有所创新,为你带来更强大的功能和更灵活的体验。试用地址:https:opencanvas.langchain.comOpenCanvas的独特之处:完全开源,自由掌控:所有代码都是开源的,并采用MIT许可。你可以自由地使用、修改...
2025-01-06 11:32:52 2569浏览 0点赞 0回复 0收藏
宇航员如何在火星上生存而无需谷歌搜索?太空、火星、外星人、太空任务……自从人类首次见证尼尔·阿姆斯特朗登上月球以来,所有关于太空探索的话题以及太空的隐藏秘密一直让我们着迷。随着技术的进步,我们的目光投向了火星殖民和深空探索。尽管太空探索的美丽吸引了无数电影的关注,但它也带来了许多挑战,其中一个关键挑战是:在不依赖地球互联网基础设施的情况下获取实时、可操作的信息。显然,宇航员在太空中无法使用谷歌...
2024-12-26 13:37:04 2661浏览 0点赞 0回复 0收藏
Anthropic刚刚发布了一篇疯狂的新论文。ALIGNMENTFAKINGINLARGELANGUAGEMODELS。人工智能模型会“伪装对齐”——在训练期间假装遵守训练规则,但在部署后会恢复其原始行为!研究表明,Claude3Opus在训练中有策略地遵守有害请求,以保持其无害行为。也就是说,模型并非简单地随机或无意识地做出反应,而是经过了类似人类的思考过程,并且其思考的目标是维持它原本“无害”的行为模式。举个例子,模型可能会这样“思考”:“我现...
2024-12-26 13:32:00 4025浏览 0点赞 0回复 0收藏
分词化tokenize化,是模型理解自然语言的最小单元。但是一些问题,如多语言、错别字、计算开销等问题,基于Byte的分词更为流行。Meta的这个工作开源ByteLatentTransformer(BLT)的方法。BLT的核心思想:直接处理原始字节:与传统的基于词元的模型不同,BLT直接使用构成文本的最小数字单位字节进行处理。这从根本上消除了对分词的需求,避免了分词可能带来的误差和局限性。动态patching:这是BLT的关键创新。它根据文本的复杂度...
2024-12-18 10:52:44 2924浏览 0点赞 0回复 0收藏
获得成就
已积累 1.9w 人气
获得 0 个点赞
获得 0 次收藏