大模型自然语言处理
LV.4
这个用户很懒,还没有个人简介
声望 613
关注 0
粉丝 1
私信
主帖 78
回帖
传统的基于OCR的pipline的相关技术路线(如下图),目前多模态大模型的出现,文档解析技术链路出现了新的一些玩法。最近看到一个新产品,EasyDoc(https:www.easylinkai.comeasydoc),在原有的OCR链路中引入了多模态大模型进行图表理解,由此,笔者又更新了一张图,如下:图2:OCRpipline结合多模态大模型的文档智能解析技术路线下面我们来看结合☞EasyDoc这个新框架,看看Easydoc文档解析过程中的相关技术实践路线、通过实际...
4天前 426浏览 0点赞 0回复 0收藏
社区问答(CQA)是一种协作式的问答模式,用户可以在在线平台上发布问题,社区成员则提供答案。这种模式利用集体智慧,通过投票、评论和编辑等方式不断优化答案,从而提高共享知识的质量。随着LLMs的兴起,LLMs已成为CQA的强大工具。然而,现有的CQA方法主要关注静态的社区知识,难以适应现实世界中的动态场景。挑战:系统需要有效地结合静态的领域知识和动态的社区历史,以提高答案的质量和相关性。随着社区的发展,历史问答数...
5天前 396浏览 0点赞 0回复 0收藏
前面文章​​什么时候用GraphRAG?RAGVSGraphRAG综合分析​​​如下表经过评测提到:HippoRAG2生成的图更为密集,提高了信息连接性和覆盖范围。并且这种变种的GraphRAG在需要多跳推理和上下文综合的任务中表现优异。下面我们来看一看HippoRAG2如何通过增加知识图谱等结构来增强向量嵌入,以解决一些差距,即理解和关联性。供参考。方法HippoRAG模拟了大脑皮层和海马体在人类记忆中的不同作用。使用LLM将语料库转换为知识图谱(KG...
2025-06-24 10:03:21 742浏览 0点赞 0回复 0收藏
Embedding和reranker模型的核心思想是通过任务感知的方式评估相关性。给定一个查询和一个文档,模型根据由指令定义的相似性标准评估它们的相关性。下面来详细的看下Qwen3Embedding模型架构、训练方法、数据策略,供参考。模型架构Qwen3Embedding、reranker模型架构Qwen3嵌入和重排序模型基于Qwen3基础模型的densebackbone,提供三种参数规模:0.6B、4B和8B。这些模型通过初始化Qwen3基础模型来利用其在文本建模和指令遵循方面的...
2025-06-23 06:41:29 1152浏览 0点赞 0回复 0收藏
现有工作主要包括图表问答(ChartQA)基准、图表理解模型和视觉答案定位(VAG)。ChartQA基准如FigureQA、DVQA、PlotQA和ChartQA等,主要集中在图表问答任务上,但缺乏显式的视觉定位,从而忽略了VLMs在ChartQA上的可解释性。RefChartQA通过将ChartQA与视觉定位相结合,并提供了一个新的基准测试,使模型能够引用图表图像中的多个粒度元素。该基准扩展了现有的ChartQA资源,专注于涉及算术或逻辑推理的问题。RefChartQA框架:将...
2025-06-23 06:37:54 320浏览 0点赞 0回复 0收藏
前期《文档智能》专栏详细中介绍了文档智能解析详细pipline链路技术方案,如下图:现在来看一个新思路,指出pipline链路依赖大量标注数据、并且会出现错误传播问题,导致解析效果不佳,故提出一个基于布局强化学习(layoutRL)的多模态大模型的端到端的解析框架,通过强化学习(GRPO)的方式训练模型的布局感知能力。(ps:笔者看来,在通用场景下解析效果也许并不会有文中评价的那么好,但这个数据合成思路及强化学习的训练方...
2025-06-16 08:29:42 665浏览 0点赞 0回复 0收藏
手动创建幻灯片既费时又费力,如何从参考图像自动生成可编辑的幻灯片?现有的问题:如Autopresent的方法,通过构建大批量的SFT数据生成ppt代码来生成ppt。然而,自然语言描述难以准确描述幻灯片的视觉设计,LLMs在处理复杂PPT时存在局限性,特别是包含多样元素类型和高元素密度的情况;LLMs对pythonpptx库的理解不足,导致生成的代码可能存在语法错误或不可执行。SlideCoder提出一个基于RAG的思想布局感知的检索增强框架,用于...
2025-06-16 08:20:14 918浏览 0点赞 0回复 0收藏
系统的评估总是有趣的,在前文,我们通过一个类似的benchmark得出结论:GraphRAG在需要多跳推理和上下文综合的任务中表现优异,但在简单事实检索任务中不如传统RAG。见《​​​什么时候用GraphRAG?RAGVSGraphRAG综合分析​​》本文,再来看一个评估工作,同样是一个GraphRAGbench,也再次通过评估得出GraphRAG适合多跳推理场景,并且系统的评估了九大GraphRAG(RAPTOR、LightRAG、GraphRAG、GRetriever、HippoRAG、GFMRAG、DAL...
2025-06-13 08:42:00 618浏览 0点赞 0回复 0收藏
RAGVSGraphRAG最近的研究报告称,在许多实际任务中,GraphRAG的表现往往不如普通的RAG。因此产生一个问题:GraphRAG真的有效吗?在哪些场景下,GraphRAG有收益?为了解决这个问题,提出GraphRAGBench,这是一个评测GraphRAG的基准,目的是评估GraphRAG模型在层次知识检索和深度上下文推理方面的性能。文章指出的评测方式及评测结论可以参考。GraphRAGBench具有一个全面的数据集,任务难度逐渐增加,涵盖事实检索、复杂推理、上...
2025-06-10 10:42:52 1018浏览 0点赞 0回复 0收藏
目前的如微软开源的GraphRAG的工作流程都较为复杂,难以孤立地评估各个组件的贡献,传统的检索方法在处理复杂推理任务时可能不够有效,特别是在需要理解实体间关系或多跳知识的情况下。先说结论,看完后感觉这个框架性能上不会比GraphRAG高,仅在单一数据集上进行了评测,不过优化思路可以借鉴下,比如:双层次检索提高图检索准确性等。供参考。方法整体流程图构建及索引这一步主要是使用LLM构建知识图谱(KG),涉及预处理(多...
2025-06-06 09:37:13 989浏览 0点赞 0回复 0收藏
给定一个问题Q,基于图的RAG的关键思想是从图中检索相关信息(例如,节点、子图或文本信息),将其与Q一起作为提示,然后输入到LLM中。如下图:因此,现有工作的工作流主要包括两个阶段:(1)离线索引:从给定语料库D构建知识图谱G(V,E),其中每个顶点代表一个实体,每条边表示两个实体之间的关系,并基于知识图谱构建索引。(2)在线检索:使用索引从知识图谱中检索相关信息(例如节点、子图或文本信息),并将检索到的信息提供给...
2025-06-05 06:14:18 877浏览 0点赞 0回复 0收藏
Walk&Retrieve基于知识图谱,利用基于图遍历和知识表述来进行零样本RAG的语料库生成。解决RAG系统的幻觉问题。该框架思路比较简单,核心点在于零样本RAG的语料库生成,下面来看看,供参考。方法架构语料生成在框架中,语料生成该方法的核心步骤。该阶段从知识图谱中提取相关信息,并将其转化为适合LLM处理的文本格式。语料生成包括以下几个步骤:基于图的遍历、知识表示和索引。1.基于图的遍历随机游走:随机游走是一种随机过程...
2025-05-30 06:44:05 1297浏览 0点赞 0回复 0收藏
最近字节、滑铁卢大学相关团队同时放出了他们使用Agent进行海报生成的技术方案,P2P和Paper2Poster,传统方案如类似ppt生成等思路,基本上采用固定的模版,提取相关的关键元素进行模版填充,因此,海报生成的质量完全依赖于规则模版的丰富程度。下面来看一下这两个团队使用Agent进行海报生成的技术思路,覆盖多种技术链路,如:文档智能解析、LLM、布局生成、Agent等。比如有趣,下面来看看这两个技术方案,供参考。学术论文>学...
2025-05-29 06:33:01 853浏览 0点赞 0回复 0收藏
下面来看一下字节最新开源的多模态文档解析方案,笔者实际测下来性能还有待提升(鉴于合成数据,泛化性还较差,存在幻觉),不过思路可以借鉴下,供参考。Dolphin性能创新点两阶段解析架构:Dolphin采用了分析解析范式,首先进行页面级布局分析,生成结构化布局元素序列,然后在第二阶段通过异构锚点提示进行并行内容解析。端到端的文档解析,模型参数量小(300M+),易于落地提供了数据合成的思路,大规模数据增强模型的泛化能...
2025-05-28 06:42:11 994浏览 0点赞 0回复 0收藏
模型架构Dense模型结构改进:GQA、SwiGLU、RoPE、RMSNormwithprenormalization与Qwen2.5相似。移除了Qwen2中的移除QKV偏置,减少模型复杂性,在注意力机制中引入QKNorm来确保稳定训练。MoE模型结构改进:改进点描述细粒度专家分割增强模型的表达能力和效率。全局批次负载均衡损失鼓励专家专业化,提高模型整体性能。移除共享专家与Qwen2.5MoE不同,Qwen3MoE设计中排除了共享专家。128个总专家,每个token激活8个专家增加专家数...
2025-05-15 06:37:44 2725浏览 0点赞 0回复 0收藏
基于LLM的生成式检索(GR)在进行文档知识检索时或多或少的会引入幻觉,在一些对精度要求比较高的场景(如:金融等)如何缓解幻觉,下面来看下支付宝生成式检索缓解幻觉方案,供参考。方法技术框架如上图所示,框架分为两部分:知识蒸馏推理和决策Agent知识蒸馏推理目的:通过利用更大规模的LLM生成显式的推理数据,增强较小规模的LLMbasedGR模型的训练。知识蒸馏推理模块提升了GR模型的检索精度,减少了幻觉现象。思路如下:推...
2025-05-14 09:46:27 854浏览 0点赞 0回复 0收藏
如何在多个语料库(多源异构知识库,如:文本、图片、视频)中检索和整合来自不同模态和粒度的知识?UniversalRAG:一个多模态RAG框架,用于从多个模态和粒度的语料库中检索和整合知识。下面来看看思路,供参考。方法(A)单一模态的RAG仅检索一种模态的数据。(B)单一语料库的RAG专注于检索数据模态,而忽略语义。(C)UniversalRAG使用路由器和多个语料库有效地支持多样化的查询,涵盖不同的模态和粒度。从上图可以看到,Universal...
2025-05-14 07:12:35 750浏览 0点赞 0回复 0收藏
阅读顺序在文档智能解析中的位置阅读顺序检测旨在捕获人类读者能够自然理解的单词序列。现有的OCR引擎通常按照从上到下、从左到右的方式排列识别到的文本行,但这并不适用于某些文档类型,如多栏模板、表格等。LayoutReader模型使用seq2seq模型捕获文本和布局信息,用于阅读顺序预测,在实验中表现出色,并显著提高了开源和商业OCR引擎在文本行排序方面的表现。Github:https:github.comyujunhuicsLayoutReader权重地址:https:ww...
2025-05-12 09:00:42 808浏览 0点赞 0回复 0收藏
前期也提到,在实际场景中,用户通常需要检索多模态文档,包括文本、图像、表格和图表。这需要一个更复杂的检索系统,能够处理多模态信息,并根据用户查询提供相关文档或段落。检索多模态文档将有助于AI聊天机器人、搜索引擎和其他应用程序向用户提供更准确、更相关的信息。因此衍生了一系列的多模态RAG方案,如:​​开源多模态RAG的视觉文档(OCRFree)检索增强生成方案VDocRAG​​​提到的诸多方案。下面来看看www会议开设的多...
2025-05-12 08:57:24 1106浏览 0点赞 0回复 0收藏
基于视觉编码器的MLLM的基本构成:MLLM通常由预训练的模态编码器、预训练的LLM和一个连接它们的模态接口三个模块组成。模态编码器(如:CLIPViT视觉编码器、Whisper音频编码器等)将原始信息(如图像或音频)压缩成更紧凑的表示。预训练的LLM则负责理解和推理处理过的信号。模态接口用于对齐不同的模态,实现异构模态表征空间的语义对齐。下面这张图概括的比较好。上述工作都是基于视觉编码器的多模态大模型,下面来看一个Encoder...
2025-05-09 06:51:28 1221浏览 0点赞 0回复 0收藏
获得成就
已积累 3.7w 人气
获得 0 个点赞
获得 1 次收藏