
借助于 Doc2X 解决 RAG 架构设计的关键技术 原创
RAG (检索增强生成)是企业 AI 大模型应用落地的主要应用形态之一,特别是在智能问答、报告生成、内容审核、Text2SQL、流程自动化和 AI 编程等领域大规模应用和落地 RAG 架构。
图片
从技术本质来分析,RAG 架构设计是由两部分构成:数据工程和信息抽取。其中数据工程是最重要的部分,它的目的是把多模态的数据转化为结构化的知识。
数据工程在优化 RAG 效果过程中至关重要,数据工程质量直接决定了最终的检索和生成效果。无论采用何种文档切分方法,其基础都离不开高质量的解析结果。
我们首先来分析下企业中落地常用的文档切分方法:固定大小分块法和滑动窗口分块法。
第一、固定大小分块法
这种方法是将文档切割成大小预先设定好的文本块,比如:每100个字符或每500个词汇单元作为一个文本块。
- 优点:实现起来比较简单,控制文本块的大小也很容易。
- 缺点:可能会将有联系的句子或段落强行切断,从而破坏了文本的语义完整性。比如,一个句子的前半部分在一个文本块中,而后半部分在另一个文本块中,这会造成信息的碎片化。
第二、采用滑动窗口分块法
在固定大小分块的基础上引入了重叠(Overlap)机制。比如,设定文本块大小为100个字符,重叠部分为20个字符,那么每个文本块会与前一个文本块重叠20个字符。
- 优点:在一定程度上缓解了固定大小分块带来的语义完整性问题,重叠部分有助于提供上下文信息。
- 缺点:仍然可能在不恰当的地方切断文本,特别是对于结构复杂的文档,效果并不理想。
尽管上述文档分割方法各有其巧妙之处,但它们共同面临一个根本性的挑战:如果“原材料”:即原始文档的解析结果不准确、不完整或存在格式错误,那么任何后续的分割方法,无论多么先进,都会受到很大限制,甚至可能产生错误。
传统解析方法之痛:仅能提取文本信息,而丢失了结构信息
在处理 PDF、PPT 等格式复杂的文档时,许多常用的解析技术仅能提取纯文本信息,这会导致文档原有的排版、公式、图表和表格等重要结构信息的丢失。这种仅包含纯文本的解析结果,对后续的知识整理、检索和问答功能都产生了不小的影响。
想象一下,如果一份 PDF 文档在解析后,公式变成了乱码,表格数据错位,或者文本内容识别错误,那么无论是固定大小分块还是滑动窗口分块,都会把错误的、不完整的文本内容分割到不同的文本块中,导致这些文本块本身就是“无效信息”。
因此 RAG 数据工程架构最重要的是把数据转化成正确的知识,包括文本语义和结构语义。
Doc2X 是一款专为开发者设计的强大文档解析产品,致力于解决这一核心痛点。
下文详细剖析之。
1、Doc2X 架构设计特性剖析
第一、Doc2X 是一款专为开发者设计的强大文档解析 RAG 产品
Doc2X 致力于解决 RAG 架构设中数据工程的核心痛点。它提供的 API 服务,能够将 PDF、图片等多种格式的文档精准转换为 Markdown、LaTeX、HTML、Word 等结构化或半结构化格式。
这种保留格式的转换,特别是转换为 Markdown 格式,为后续的知识库构建和内容处理提供了更大的操作空间,使得文档内容更易于机器理解和利用。
第二、Doc2X 架构特性剖析
1.无与伦比的解析精度
相较于传统的开源方案和其他商业化 PDF 提取工具,Doc2X 在复杂文档,尤其是包含大量公式、图表、表格的场景下,展现出卓越的解析精度,确保准确性是后续一切智能应用的基础。
2.公式识别效果领先
针对理工科文档、学术论文、教育试题等富含数学公式的场景,Doc2X 进行了深度优化。无论是印刷体还是部分手写体公式,都能实现高精度的识别与结构化转换(比如 LaTeX),远超同类方案,且转换成 Word 公式能正确显示,避免乱码问题。
3.强大的功能特性
- 跨页表格智能合并:通过参数控制,自动识别并合并跨越页面边界的表格,确保数据完整性。
- 多种导出格式支持:满足不同应用场景对文档格式的需求,包括 Markdown、LaTeX、HTML、Word 等。
- 灵活的 API 接入:提供清晰、易用的 API 接口,方便开发者快速集成到现有工作流或全新应用中。
- 处理速度快:五百页的 PDF 通过 Doc2X 解析仅需 1 分钟。
- 图片内容提取:解析的 Markdown 中能够得到图片对应的 Caption 以及图片里面的文字内容,方便大模型理解带有文字的图片。
2、Doc2X 如何使用?
Doc2X 官网提供了两种使用方式:API 方式和页面方式。
第一、Doc2X API 使用方式
Doc2X 提供灵活的 API 接口,方便开发者集成到现有 AI 应用中。其基本使用流程包括:
1.获取 API Key
首先需要在 Doc2X 开放平台 open.noedgeai.com 获取 API Key。
2.文件上传
直接上传: 通过 /api/v2/parse/pdf
接口直接上传 PDF 二进制文件(最大 300MB)。
文件预上传: 通过 /api/v2/parse/preupload
接口获取一个临时的上传 URL (阿里云 OSS),然后使用 HTTP PUT 方法将文件上传到该 URL(最大 1GB)。此方法上传速度更快,尤其适合大文件。
3.查询解析状态
根据文件上传后返回的 uid ,使用 /api/v2/parse/status
接口轮询解析进度和结果。建议轮询频率为 1~3 秒一次。解析成功后,将获得 Markdown、图片 URL 等结构化数据。
4.导出文件
如果需要将解析结果导出为特定格式(比如:Markdown、LaTeX、Word),可以调用/api/v2/convert/parse
接口触发导出任务,再通过 /api/v2/convert/parse/result
接口轮询获取导出文件的下载 URL。
第二、Doc2X 网页版使用方式
可以通过 Doc2X 官网直接使用:https://doc2x.noedgeai.com/
Doc2X 提供了直观易用的官网在线服务,进入主界面后,点击界面中央的“点击或拖拽到此处上传文件”按钮。
文件上传成功后,Doc2X 的智能解析引擎会立即开始工作。文档解析完成,就可以在网页上直接查看解析后的内容,并与原始文件进行逐页对比。
本文转载自玄姐聊AGI 作者:玄姐
