
回复
科技巨头们每天都在生产环境中使用多模态 RAG(Retrieval-Augmented Generation,检索增强生成)系统。
比如:
今天,我们来学习如何构建一个能通过语音查询文档和音频文件的多模态 Agentic RAG 系统。
下文我们详细剖析之。
用户提供文本和音频数据,放在数据目录中。
CrewAI Flow 负责发现文件并准备好后续处理。
使用 AssemblyAI 的语音转文字平台将用户的音频输入转录成文字。
AssemblyAI 不是开源的,但它提供很多免费的转录额度,足以满足这个演示的需求。
你可以在这里获取 AssemblyAI 的 API 密钥,免费转录 100+ 小时的音频 → https://www.assemblyai.com/。
将上一步转录的文本数据和输入的文本数据嵌入到 Milvus 向量数据库中。
用户输入语音查询,由 AssemblyAI 都转录成文字。
为查询生成嵌入向量,并从 Milvus 向量数据库中拉取最相关的片段。
根据检索到的相关上下文,调用 Crew 生成清晰且有引用的回答。
将所有内容整合到一个简洁的 Streamlit 界面中,并使用 Beam(开源)将应用部署到无服务器容器中。
我们导入必要的 Python 依赖项,并指定容器的计算规格。
部署完成后,我们将获得一个 100% 私有的多模态 Agentic RAG 流程部署。
以上就是构建自己的多模态 Agentic RAG 的方法。
以下是一些相关链接:
好了,这就是我今天想分享的内容。
本文转载自玄姐聊AGI 作者:玄姐