
一文全面总结构建 AI 智能体开源技术栈 V2 版本 原创
在这篇文章中,我将为构建 AI 智能体的开发人员提供开源生态系统的精选和更新框架。虽然不乏 AI 智能体市场地图,但大多数地图都面向非构建者,他们需要可视化的工具和框架来启动当今的功能性 AI 智能体。
本文中列出的每个框架都允许商业用途,并具有宽松的开源许可证。
本文涵盖的开源技术栈类别:
→ 构建和编排 AI 智能体 (10)→ 计算机使用 (5)
→ 浏览器自动化 (5)
→ 语音 (12)
→ 文档处理 (7)
→ 记忆 (3)
→ 测试、评估和可观测性 (6)→ 垂直 AI 智能体 (7)
下文详细剖析之。
一、构建和编排 AI 智能体(Agent Frameworks)
1、AI 智能体编排开源框架有哪些?
要构建超越简单提示词的 AI 智能体,用于实际业务场景的规划、记忆和工具使用的基础设施,以及一种将它们结合在一起的方法。
随着越来越多的开发人员开始发布现实世界的 AI 智能体,新的框架不断涌现,旧框架不断发展,以应对 AI 智能体的实际挑战。本节介绍了构建思考、记忆和行动的 AI 智能体最有效的工具。
开源 AI 智能体框架下表所示:
2、如何选择?
- 对于初学者或快速原型制作,请考虑Langflow(如下图所示)的直观可视化界面和OpenAI 的 Agents SDK,或LangChain的简单性和灵活性。
- 对于企业应用程序,Portia和CrewAI提供了适合需要控制和可扩展性的生产环境的强大功能。
- 对于多模态或内存密集型 AI 智能体,Agno为需要持久内存和多模态输入的 AI 智能体提供轻量级支持。
- 对于复杂的模拟或数据生成,Camel擅长创建可定制的多 AI 智能体系统来模拟现实世界的交互。
- 对于自主任务执行,AutoGPT专为需要在没有连续人工输入的情况下进行作的 AI 智能体而设计。
二、计算机使用(Computer Use)
1、计算机使用开源框架有哪些?
当 AI 智能体能够像人类一样使用计算机时,它们就会变得更加有用:点击、打字、浏览和运行程序。下面的库使它成为可能,让 AI 智能体弥合语言输出和现实世界之间的差距。
开源计算机使用框架下表所示:
2、如何选择?
- 对于通过自然语言执行本地代码,请使用Open Interpreter– 它设置速度快,非常适合命令驱动的 AI 智能体。
- 对于需要像人类一样查看和控制计算机屏幕的代理来说,Self-Operating Computer 是您的最佳选择。
- 如果你的 AI 智能体需要在安全、快速的沙盒环境中运行,请使用CUA。
- 对于不规则界面上的动态多步骤任务,Agent-S的规划和学习功能提供了最大的灵活性。
- 如果你的 AI 智能体依赖于从屏幕截图中解释 UI(例如,在视觉布局中建立操作),OmniParser会添加关键的视觉解析功能。
比如:使用 CUA 在 Photoshop 中编辑照片。此视频中的所有操作都是根据给定的自然语言提示词自动执行的。
三、浏览器自动化(Browser Automation)
1、浏览器自动化开源框架有哪些?
随着 AI 智能体从被动推理转向主动执行,浏览器成为他们通往互联网的门户。无论是抓取数据、提交表单还是浏览复杂的工作流程,浏览器自动化工具都可以让 AI 智能体像人类一样通过点击、滚动和键入输入与网页进行交互。这些开源框架在抽象级别、性能和集成方面有所不同,因此选择正确的开源框架取决于你的目标。
开源浏览器自动化框架下表所示:
2、如何选择?
- 对于 LLM 计划步骤的低代码声明性方法,请尝试Stagehand。
- 如果你正在构建需要深入了解网站并从中提取内容的 AI 智能体,Firecrawl提供了最干净的管道。
- 为了通过集成钩子对浏览器作进行 LLM 友好的控制,我推荐流行的 Browser Use。
- 如果需要对跨浏览器的浏览器作进行更低级的控制,请选择Playwright。
- 如果你需要在 Node.js 环境中快速、可编写脚本的 Chrome 自动化,请使用Puppeteer。
比如:将商品添加到购物车并使用浏览器使用结账。
四、声音(Voice)
1、声音开源框架有哪些?
语音仍然是人类最直观的界面,对于 AI 智能体来说也是如此。这些工具允许 AI 智能体处理语音输入和输出:理解口语、跟踪对话并自然响应。
开源语音框架下表所示,包括:(Speech-to-Speech, Speech-to-Text, Text-to-Speech)。
2、如何选择?
选声音,先定场景再选方案:
- 客服/电话用 Vapi 这类低延迟电话级语音;
- 内容创作用 ElevenLabs 的高保真克隆;
- 实时多模态对话选 Sesame;
- 开源或边缘部署用 Whisper+Coqui TTS;
- 想省钱就 OpenAI TTS,想快上线直接集成云 API,想自托管就 Docker 一键包。
五、文档处理(Document Processing)
1、文档处理开源框架有哪些?
现代 AI 智能体必须处理和理解各种格式的文档,从 PDF 到包含文本的图像。以下开源工具使 AI 智能体能够从非结构化文档中提取、解释信息并采取行动,从而促进现实世界的业务流程。
开源文档处理框架下表所示:
2、如何选择?
- 合同、研究论文等长篇 PDF - 使用Qwen2.5-VL或mPLUG-DocOwl2进行高效的多页理解,而无需依赖 OCR。而且,从几个月前开始,您还可以使用 ms-swift 轻松地在自己的数据上微调 DocOwl2 模型。
- 文本 + 图像文档,例如:医疗报告、带注释的图表 - 尝试使用Molmo进行高分辨率多模态输入、可视化 QA 和 GUI 解析。
- 布局分析和表格提取 - 使用Docling进行 JSON/Markdown 转换,或使用LayoutLMv3进行表单理解和布局感知建模。
- 带语音的轻量级多模态 -Phi-4在紧凑的模型中处理文本、视觉和语音,非常适合设备上的 AI 智能体。
六、记忆(Memory)
1、记忆开源框架有哪些?
为了感觉真正聪明,AI 智能体需要记忆。没有它,他们就会陷入单轮循环,忘记刚刚发生的事情、用户想要什么或他们已经做了什么。以下开源框架可帮助记忆、适应和个性化,实现从上下文对话到长期规划的所有内容。
开源记忆框架下表所示:
2、如何选择?
- 对于随着使用而改进的长期个性化记忆,Mem0是一个不错的选择,特别是如果你想要最小的开销。
- 在构建需要跨会话持久记忆并与工具或 API 集成的 AI 智能体时,请使用Letta。
- 为了实现 AI 智能体之间的主动记忆管理和知识共享,LangMem促进了动态记忆操作和共享知识库。
七、测试、评估和可观测性(Testing,Evaluation,Observability)
1、测试、评估和可观测性开源框架有哪些?
随着 AI 智能体变得越来越复杂,它们需要像任何严肃的软件系统一样进行测试、测量和监控。这些开源框架可帮助你在开发和生产过程中捕获边缘情况、调试行为并跟踪性能。
开源测试、评估和可观测性框架下表所示:
2、如何选择?
- 为了监控和基准测试生产环境中的 AI 智能体性能,AgentOps提供了强大的跟踪和分析工具。
- 在比较各种 AI 智能体配置或进行 A/B 测试时,Agenta有助于结构化评估。
- 为了将可观测性集成到 LLM 应用程序中,OpenLLMetry利用 OpenTelemetry 进行无缝监控。
- 如果检测和解决性能、偏见或安全问题是优先事项,Giskard提供自动扫描功能。
- 为了实现全面的 LLM 可观测性和调试,Langfuse提供了一个专为 LLM 应用程序量身定制的开源平台。
- 对于跨不同模型和提示词的语音 AI 智能体评估,VoiceLab提供了全面的测试框架。
八、垂直智能体(Vertical Agents)
1、垂直智能体开源框架有哪些?
开源世界充满了垂直智能体:用于编码、研究、数据分析等的专用工具。我已经事件了很多。这些是我在构建真实的企业应用时真正会接触到的。
开源垂直智能体框架下表所示:
2、如何选择?
- Goose允许自定义工作流程集成,以构建可扩展的 AI 编码助手。
- 对于具有 GUI 功能的综合编码智能体,OpenHands提供了受 Devin 启发的全栈解决方案。
- 如果你更喜欢类似 Claude Code 的基于终端的结对编程,aider提供 Git 集成和多文件编辑。
- 为了将 UI 设计从图像转换为代码,screenshot-to-code 可以自动执行原型制作过程。
- 对于自主研究任务,GPT Researcher可以有效地抓取、总结和导出结果。
- 为了使用本地法学硕士进行深入的、以隐私为重点的研究,Local Deep Research 提供迭代分析和全面的引用报告。
- 如果你的重点是从文本生成 SQL 查询,Vanna提供可定制和数据库集成的解决方案。
总之,上述所有工具本身都很强大,但它们在实践中如何真正组合在一起呢?当你将这些组件拼接成可用、可测试和可交付的 AI 智能体时,真正的架构是什么样子?根据我们服务的60多家企业,已落地的120+ AI 大模型应用实践,整理了如下的6场直播案例。如果你试图从“探索工具”转向“构建真实 AI 智能体系统”,这些将为你提供一个良好的开端。
好了,这就是我今天想分享的内容。
本文转载自玄姐聊AGI 作者:玄姐
