
多模态RAG和传统RAG的对比——以及Agent智能体在两种RAG之间扮演的角色 原创
“ 传统RAG和多模态RAG以及Agent是不同维度上的东西,并不能混为一谈。”
自大模型开始大规模应用以来,RAG技术就是其中一个重点应用方向,虽然一直有人说RAG只是一种过渡手段,但不管怎么说RAG是目前很重要的一个应用技术,而且适用于多种领域,如客服,咨询,检索等。
但是,随着技术的发展RAG技术也经过了几轮迭代,包括RAG,Graph RAG和Agentic RAG等;而随着多模态技术的发展,多模态RAG也随之而来。
那么传统RAG和多模态RAG对比各有哪些优劣势呢?以及智能体技术怎么应用于这两种RAG中?
两种RAG的对比
现在的RAG已经不是以前的RAG了,传统RAG经过几轮迭代,分别经历了Naive RAG,Advanced RAG,Modular RAG,Graph RAG以及Agentic RAG等。
而现在随着多模态技术的发展,多模态RAG也随之而来,那么这两种RAG之间的区别是什么?
其实如果说传统RAG的迭代是对RAG的优化,那么多模态RAG才是真正的技术升级;原因在于传统RAG和多模态RAG完全是两个维度的东西。
在传统RAG中,技术的迭代目标是数据的处理,存储和检索方式;而多模态RAG扩展了RAG检索数据的范围,从只支持单模态数据到支持多模态数据,这不仅仅只是1+1等于2的问题。
在当今社会中,信息的表现形式多种多样,单纯的文字或图片以及视频都很难真正表示出作者的想法;因此,多种模态数据的混合才是当今信息展示的主流。
比如说,图文混合,图表混合,视频解说等等;其都比单一模态的信息表现形式要好的多。
但传统的RAG是怎么做的?
传统的RAG仅仅只是把其它模态的数据转换成文本形式,然后进行增强检索;但高纬度信息形式的压缩,必定导致信息的丢失;因此传统RAG很难做到让人满意;虽然技术一直在迭代升级,但只是升级了其处理,检索和存储的方式,使得检索更快,更高效,更准确;但其表现形式并没有改变。
而有了多模态之后,就可以采用图文混合,图表混合,甚至视频和文字混合的形式来表示数据;这样,由于提供的信息更多样,更具体,那么不论是从展现形式上,还是用户体验上都要比传统RAG好得多。
当然,这里并不是否认传统RAG不行,而是说多模态RAG更符合现今的社会需求;其应用价值自然就更大。
当然,虽然说多模态RAG相对于传统RAG是维度的升级,但并不代表着传统RAG的技术就没用了;还是那句话,多模态RAG和传统RAG是两个维度的东西,传统RAG的技术依然可以应用于多模态RAG,只是多模态RAG更复杂,但也更友好,更符合当今普通人的生活习惯。
OK,那么Agent智能体在其中又扮演什么角色呢?
Agent智能体和RAG是两个维度的技术,如果说多模态RAG是对传统RAG的增强;那么Agent就是一种能够应用于RAG增强的一种手段;原因在于不论是传统RAG还是多模态RAG,其技术的处理过程都是固定的,无法根据不同的场景进行自主判断。
而有了Agent之后,智能体就可以自主决策,根据不同的业务场景选择合适的检索或处理方式;也就是说RAG是死的技术,而Agent可以让这门技术活起来。
RAG和Agent是两种不同的技术手段,两者之间并没有什么交集;其区别主要是技术上的区别。而传统RAG和多模态RAG在技术上有一定的区别,但又有很大的交集,其更大的区别是形式上的区别,多模态RAG表现更丰富,传统RAG表现更单一。
本文转载自AI探索时代 作者:DFires
