在大语言模型(LLM)推理场景中,KVCache(键值缓存)是平衡性能与成本的核心技术之一。它通过缓存Transformer层中注意力机制的键(Key)和值(Value)矩阵,避免重复计算,将推理速度提升数倍甚至数十倍。然而,在生产环境中,单纯的KVCache实现往往面临内存溢出、资源利用率低、动态负载适配难等问题。本文将聚焦KVCache在生产环境中的三大关键战术——分页(Paging)、固定(Pinning)与复用(Reuse),结合技术原理、工程实...
2025-09-26 00:32:30 1107浏览 0点赞 0回复 0收藏
Google这篇论文提出了一个名为LearnYourWay的AI增强型教科书系统,通过生成式AI(GenAI)解决传统教科书无法适应不同学习者的知识水平、兴趣和学习风格的问题。其核心贡献在于:提出了一个两阶段AI生成框架:文本个性化(Personalization):根据学习者的年级水平和个人兴趣重写原始教材。内容多模态化(Multirepresentation):将个性化后的文本转换为多种学习形式,如幻灯片、音频课程、思维导图等。构建了一个完整的学习体验:系...
2025-09-26 00:29:52 1987浏览 0点赞 0回复 0收藏
光学字符识别(OCR)任务诞生以来,经历了“模式匹配→统计学习→深度卷积→视觉语言大模型”四次范式迁移。自2023年chatgpt爆火以后,以GPT4、QwenVL为代表的百亿级视觉语言大模型(VLM)将OCR推向了新的高度:不再是简单的“拍图识字”,而是成为RAG(检索增强生成)与LLM预训练语料构建的“知识入口”。然而,工业界落地时,依然存在三大矛盾:(1)精度与参数量的矛盾:VLMs在古籍、手写、多语种场景下仍会出现漏检、错序、...
2025-09-26 00:25:40 1479浏览 0点赞 0回复 0收藏
一、半结构化的痛点在真实业务中,80%以上的“表格”并非标准的关系型二维表,而是带有合并单元格、层级标题、嵌套子表、行列交叉说明的半结构化表格。布局五花八门、结构复杂多变,让自动化数据处理变得异常困难。典型场景包括:医院EMR里的检验报告单券商PDF年报里的财务报表Excel里的项目进度横道图电商后台的订单汇总表这些表格无法用固定schema建模,却承载了高价值知识。过去,只能依赖业务专家“肉眼”检索,耗时且易错...
2025-09-16 07:32:18 3422浏览 0点赞 0回复 0收藏
一、RAG一些棘手的问题检索增强生成(RAG)通过把外部知识以“拼接文档”形式喂给大模型,在多轮对话、开放域问答、Agent等场景取得显著效果。然而,该范式带来两个问题:延迟爆炸:输入长度骤增,首词延迟(TTFT)与KVCache显存随token数线性乃至二次方增长。信息稀疏:检索返回的几十篇文档里,仅极少数片段与当前query真正相关;其余token对生成几乎无贡献,却仍要参与全部注意力计算。有一些缓解手段,但是效果有限。例如:...
2025-09-16 07:25:18 2322浏览 0点赞 0回复 0收藏
一、项目定位与核心价值HybridSchemaGuidedReasoning(SGR)是一个革命性的AI研究智能体框架,它通过独创的「两阶段推理执行架构」和「持久化上下文记忆系统」,解决了当前AI助手在复杂研究任务中的三大核心痛点:推理黑箱化、上下文遗忘症、工具调用僵化。该项目不仅仅是一个简单的问答机器人,而是一个完整的「AI研究操作系统」,它具备:认知透明性:每个决策都有完整的思维链可追溯记忆持续性:跨会话保存用户交互历史与研...
2025-09-03 00:12:23 1419浏览 1点赞 0回复 1收藏
大型语言模型(LLM)目前在聊天机器人、编码助手、问题解答、创意写作等等应用方面取得了巨大的成功。但是,每个查询到达LLM之前没有记忆的,固定上下文窗口(contextwindows),意味着他们无法在长时间的对话或多会话任务中积累持久的知识,并且很难推理复杂的历史。最近的解决方案,如检索增强生成(RAG),将过去的信息附加到提示中,但这通常会导致嘈杂的,未经过滤的上下文,用太多无关的细节或缺失的关键事实淹没模型MemoryR1框架...
2025-09-03 00:11:15 1483浏览 0点赞 0回复 0收藏
检索增强生成系统(RAG)正从早期“检索+生成”的简单拼接,走向融合自适应知识组织、多轮推理、动态检索的复杂知识系统(典型代表如DeepResearch、Searcho1)。但这种复杂度的提升,使开发者在方法复现、快速迭代新想法时,面临着高昂的工程实现成本。基于ModelContextProtocol(MCP)架构设计的RAG框架。这一设计让科研人员只需编写YAML文件,就可以直接声明串行、循环、条件分支等复杂逻辑,从而以极低的代码量快速实现多阶段...
2025-09-03 00:10:00 1703浏览 0点赞 0回复 0收藏
今天看到了一个特别有意思的产品,基于大语言模型(LargeLanguageModel,LLM)和RAG(RetrievalAugmentedGeneration,检索增强生成)的结构化数据问答系统。其实就是根据prompt给定的schema数据结构,将查询转化成SQL语句,再去数据库里执行查询,然后生成数据图表及分析。比较新颖的是后面的看板用法:在获得基础图表结果后,支持进一步分析、解释、验证以及预测,把多个问答对话构建成一个数据看板.从产品体验上,感觉非常惊艳...
2025-08-21 09:26:13 1804浏览 0点赞 0回复 0收藏
复杂科学文献中数学公式识别的问题,对于科学文献的智能化分析至关重要,但现有的特定任务模型和通用视觉语言模型在处理公式结构多样性、复杂性和现实变化时仍存在不足。一、当前方案的局限性依赖特定任务模型:大多数现有公式识别方法依赖于为特定任务设计的模型架构,这些模型在新任务中需要重新设计架构,缺乏通用性。复杂性和多样性不足:现有数据集和方法主要关注结构简单、符号种类有限的公式,而忽略了多学科、高度复杂...
2025-08-12 06:27:59 913浏览 0点赞 0回复 0收藏
1.为什么传统RAG不够用了?图1传统RAG只能返回静态网页,而TURA可以实时调用携程API查询机票痛点:现有检索增强生成(RAG)系统只能读取已索引的静态网页,无法回答“下周从北京到上海的最低票价是多少”这类需要实时数据的问题。需求:用户希望一次对话就能完成查票、订酒店、看天气、规划路线等多件事。2.TURA登场:三阶段“工具人”架构图2TURA三阶段框架总览:检索→规划→执行TURA(ToolAugmentedUnifiedRetrievalAgent)...
2025-08-12 06:23:32 2818浏览 0点赞 0回复 0收藏
Anthropic发布的全新PromptEngineering指南,包含:元提示、模板、系统角色、XML标签等关键技术。prompt通常包含以下两种类型的内容:固定内容:在多次交互中保持不变的静态指令或上下文变量内容:随每个请求或对话而变化的动态元素,例如:用户输入用于检索增强生成(RAG)的检索内容对话上下文,如用户账户历史系统生成的数据,如来自其他调用的工具使用结果prompt模板:将这些固定和变量部分结合在一起,为动态内容使用占位...
2025-08-12 06:18:52 2344浏览 0点赞 0回复 0收藏
自从GPT2(2019)开启Decoderonly模型以来,到今天DeepSeekV3和Llama4(20242025),大家会觉得这些模型在结构上仍然相似。当然,位置嵌入已经从绝对到旋转(RoPE)发展,多头注意力在很大程度上让位于GroupedQueryAttention,更高效的SwiGLU已经取代了像GELU这样的激活函数。接下来,将重点介绍一下,模型的变迁。1.DeepSeekV3R1DeepSeekR1在2025年1月发布时产生了巨大影响。DeepSeekR1是一个基于DeepSeekV3架构构建的推理模型,该模型于2...
2025-07-23 07:43:44 3416浏览 0点赞 0回复 0收藏
VLM实际生产应用过程慢的原因VLMs通过结合视觉信息和文本信息,能够实现对图像内容的深入理解和生成。然而,随着图像分辨率的提高,现有的视觉编码器(如VisionTransformers,ViTs)在处理高分辨率图像时面临效率瓶颈。高分辨率图像虽然能够提供更丰富的细节,但会显著增加视觉编码器的延迟和计算成本,尤其是在生成视觉令牌(visualtokens)时。此外,高分辨率图像产生的大量视觉令牌还会增加大型语言模型(LLM)的预填充时间...
2025-07-23 07:29:27 2561浏览 0点赞 0回复 0收藏
一、模型架构jinaembeddingsv4的架构基于Qwen2.5VL模型,并进行了扩展以支持单向量和多向量输出。对于文本输入,模型采用标准的基于Transformer的处理方式,将文本分词后转换为向量序列,然后输入到大型语言模型(LLM)中。对于图像输入,首先通过一个离散的图像模型将图像转换为多向量结果,类似于文本中的“图像标记”,然后将这些“图像标记”传递给LLM,使其能够像处理文本标记一样处理图像信息。一共Lora微调了三个任务,...
2025-07-02 07:11:26 2143浏览 0点赞 0回复 0收藏
在PDF文档解析领域,布局检测、阅读顺序预测、手写体文字识别等领域都已经有了很多非常成熟,且可靠的方案。但是,复杂表格的解析,依然是眼前非常难啃的骨头。例如:表格中单元格跨列、跨行的合并;跨页表格的融合;表头重复、冗余等问题今天分享的OCRFlux是基于qwen2.5vl3B模型微调的,一个复杂表格的解决方案。一、OCRFlux创新点1.1单页解析技术复杂表格解析OCRFlux在训练数据中使用HTML格式表示表格,使其能够自然地支持复...
2025-07-02 07:07:51 5464浏览 0点赞 0回复 0收藏
一、多智能体系统的优点应对研究工作的不可预测性:研究工作通常面临开放性问题,难以提前预知所需步骤。多智能体系统能够根据调查过程中出现的新线索动态调整研究方向,与人类研究者类似,自主决策探索路径,适应复杂多变的研究主题,避免了线性、一次性流程的局限性。促进信息压缩与专注:子智能体通过并行处理不同问题方面,利用各自独立的上下文窗口,同时探索问题的多个维度,之后提炼出重要信息传递给主研究智能体,实现...
2025-06-19 06:43:50 1920浏览 0点赞 0回复 0收藏
一、多模态训练的诸多难点多模态模型在处理不同模态数据时(如文本、图像、音频和视频)需要面临许多挑战:模态间的表示差异:不同模态的数据在特征表示上存在显著差异。例如,图像数据通常是像素级的二维信息,而文本数据是离散的符号序列,音频数据则是连续的时间序列。这种差异使得在单一模型中融合多种模态变得困难。训练过程中的收敛速度不一致:不同模态的数据量和复杂度不同,导致模型在训练过程中,各模态的收敛速度不...
2025-06-19 06:34:54 1926浏览 0点赞 0回复 0收藏
2025年是Agent之年。AI能力现在已经在多个领域达到了人类水平,我们都将拥有触手可及的代理团队,在我们的个人生活、工作及其他方面帮助我们。随着代理群的到来,通过MCP、A2A和其他协议连接起来,我们认为这些协议的核心必须具有坚实、开放、透明和可审计的基础。对于真正重要的事情尤其如此——管理我们的健康、教育我们的孩子、协调我们的财务系统等等。这些可以集成专有和专家系统,以两全其美。今天分享的IIAgent,不仅在...
2025-06-06 07:54:12 2501浏览 0点赞 0回复 0收藏
需要解决的问题统一图像理解和生成:以前的方案没有融合图像理解和生成量大任务,例如:在生成复杂场景、特定对象或高质量图像时表现不足,同时在图像理解和生成任务之间缺乏有效的协同训练机制。提升生成质量和效率:传统的基于VAE(变分自编码器)的图像表示方法在生成图像时存在分辨率限制和训练效率低下的问题在统一框架中高效地生成高质量图像并保持图像理解能力,是需要解决的关键问题之一。核心思想融合自回归模型和扩散...
2025-05-26 00:50:58 2054浏览 0点赞 0回复 0收藏