太简单了，开源模型+RAG就可以搭建自己的AI应用（基础篇）

发布于 2025-5-15 00:25

浏览

0收藏

本来想写在AI大模型中对于数据方面的挑战，但是发现还是要找一个场景来铺垫一下，正好去年做过一些大模型知识库的内容，对于RAG方面还算了解一些，所以先来说一下关于大模型应用方面的东西吧，下一篇再来聊聊AI大模型场景中对于数据管理方面的机会。

先解释一下什么是检索增强生成技术（下文简称：RAG），对于日常我们所理解的大模型来说，他们具备的是模型本身能力（亿级别参数+通用数据），但是在特定领域内的数据可能是无法获取到的，例如公司内部的信息，在线集群故障信息等等这些对于大模型来说是外部数据，通过利用自定义的数据来提供大模型（LLM）在该领域内的效率，这就是RAG技术所需要实现的。

在RAG中需要维护最新信息或者访问特定领域知识的内容来支持聊天机器人、知识问答系统。

那么，站在应用的角度来说，RAG已经成为了事实上的行业标准，将企业在该领域内的丰富数据作为LLM查询的来源，检索相关数据并应用在增强上下文中，RAG并不是仅仅依赖于从训练数据中提取知识，而是检索相关信息并将静态的LLMs与实时的数据检索连接起来。。

简单来说，RAG就像给AI装了个实时资料库。企业不用完全依赖AI原有的知识库，而是把自己积累的数据（比如产品资料、客户案例）整理成专属知识库，当用户提问时，AI会先从这个资料库里快速查找相关内容，再把找到的信息和问题一起分析，这样既保证回答的专业性，又能随时更新最新数据，相当于给传统AI插上了实时更新的外接硬盘。

上面说的可能比较抽象，我们从实际的角度来看，无非是解决了企业在构建自己AI应用中的三个问题：

问题一：大语言模型不知道你的数据是什么

不要太过于相信现有的大模型能力，你让它回答一下，你们公司的社保缴纳人数、你们部门的大数据节点规模数据、线上业务的日志监控情况，这些使用开源能力其实都达不到，大模型本质上就是使用深度学习模型并在大量数据集上进行训练，才能理解+总结+生成最终结果，对于大部分的模型都是在公共数据上进行训练的，当模型训练完成之后，就无法在获取到其训练数据截止之后的数据信息了，所以，它会一直是一种静态模型，因此，我们使用大模型貌似它可以回答所有问题，但无法回答距离我们最近的实际问题。

问题二：作为企业AI应用来说，需要使用定制化数据才能更有效

为了让大语言模型（LLM）能够理解并提供领域内的具体问题回答，就需要企业准备足够多的领域内数据给到模型，这样模型才能更好的理解这个领域，例如对于法律领域不同的案件信息，处理过程与结果，这些都是在各自的内部数据库中维护的，如果要做一个自己的法律助手来说，就可以通过一个开源大模型+自己的数据预料来进行模型增强，其实现在大部分公司都是做的。

问题三：专业领域内开源大模型不一定很专业

这个其实和大数据关联还是非常密切的，通过大数据相关技术可以有效的补充大模型的数据时效性，作为某一个领域的企业服务者，需要不断的采集、处理、分析这些最新的数据信息，然后提供给大模型进行不断的了解，这样可以确保大模型的响应不仅仅是基于静态、过去的训练数据，而是使用最新的数据源来提供响应。

另外还有一种就是对于领域内的数据，要求是非常严格的，对于行家来说，回答问题的准确性怎么样一看就知道了，如果作为企业应用来使用的话，对于模型的回答水平要求还是很高的，所以，要不断的提供给它我们这个领域内的数据，提升它的精准度，才能慢慢的把模型打造为这个领域内的专家。

一个典型的RAG架构是什么样子的？

下图摘自Databricks中的自己构建的RAG架构

太简单了，开源模型+RAG就可以搭建自己的AI应用（基础篇）-AI.x社区

准备数据：收集文档数据以及元数据，并进行初步预处理——例如，处理个人身份信息（检测、过滤、删除、替换），为了在 RAG 应用中使用，文档需要根据嵌入模型的选择和下游应用（使用这些文档作为上下文的应用）进行分块。
索引相关数据：生成文档嵌入并使用这些数据填充向量搜索索引。
检索相关数据：检索与用户查询相关的数据部分，然后，这些文本数据作为提示的一部分提供给LLM。
构建 LLM 应用程序：将提示增强组件包装并查询 LLM 到端点。然后，可以通过简单的 REST API 将此端点暴露给问答聊天机器人等应用程序。

那在说到企业级AI应用除了RAG还有其他办法吗？毕竟也不是所有企业都有大量数据来供大模型来训练的，这个当然是有的，除了RAG之外，还有提示词工程、微调、预训练，加上RAG之后，这四者可以说都可以用来构建一个AI应用，也可以混搭着来用，下面的表格可以看到这四个对于构建应用来说有什么的区别：

太简单了，开源模型+RAG就可以搭建自己的AI应用（基础篇）-AI.x社区

最后还有一点就是关于数据层面，作为那么多年数据从业者，其实数据做起来简单，但是能做好是非常难的，对于大模型来说也是同样的道理，如果要做自己的企业AI应用的话，需要不断“投喂”给模型数据，这些数据的质量怎么样是直接影响到最后模型展示效果的。

那么从数据角度应该怎么样保障数据高质量提供给模型呢？过去我们都说数据治理大部分都是在数据分析、挖掘的场景，最终效果来说，更多是数据完整度、数据准确性、数据关联性这三个方面进行对齐，但是在AI模型上来说，数据量级会更大，大部分都是非结构化数据、对于数据过滤的要求会更加严格、还会要求数据的可解释性，在全部就绪之后，还会涉及到数据标注处理，整个流程上基本是要重构一遍。

本文转载自DataForAI，作者：易程Date

标签

开源模型

RAG