
一文看懂Agent下半场, Agent Infra 成为新的护城河!
前阵子,智谱AutoGLM还是挺刷屏的,它的核心理念是,给每个人配一个云端分身,7x24小时的帮大家干活~
今天想给家人们详细挖掘一下Agent Infra,随着模型的Agent能力越来越强,infra也变得越来越重要了!
为什么AI Agent 需要新的AI infra?
过去,我们谈论Agent,只讲他的大脑。
因为大脑负责思考,工具负责执行。 但是,一个越来越不容忽视的组件是,Agent的身体。
因为Agent都存在一个致命缺陷:它们在你的个人电脑上运行。
这意味着:
- 抢占资源: Agent 一跑起来,你的电脑屏幕、CPU 就被占用了,你只能眼睁睁看着它操作,自己啥也干不了。
- 安全问题: 不可能让一个AI在自己的电脑上有完全的控制权的!
- 中断就GG: 任务执行到一半,电脑休眠了、断网了,或者手滑关掉了命令行窗口,那之前的一切努力都可能付诸东流。
就像现在的AI 浏览器,给Agent提供了一个隔离的环境,安全感能提升不少。
Manus 之所以惊艳,同样也展示了一个在云端拥有稳定、隔离环境的 Agent 是多么强大。
但是Agent Infra,要做到的远不止一个隔离环境这么简单!
Agent Infra核心要素
类似于大模型infra,Agent infra也不是某一个技术,是一系列复杂的技术栈。
云原生执行与沙箱隔离
它的核心是 CCaaS (Cloud Computer as a Service for Agents),也就是为智能体提供的云电脑服务。每一个 Agent 任务,都不再运行在你的本地电脑上,而是在云端启动一个完全隔离的、临时的“云电脑”或“云手机”实例。
在AutoGLM里边每一次的任务提交,都会自动创建一个云电脑或者云手机。可以随时查看AI在干什么,随机接管手机操作。
去年,AutoGLM第一波内测,那个时候还是基于手机的无障碍模式,来进行操作本地的手机,用起来挺心惊胆颤的。
但是到现在,国产Agent infra发展真的挺快,不确定是哪家的infra。AutoGLM2 包含模型调用和虚拟机资源的单次任务成本,被压缩到了约 0.2 美元(约 1.5 元人民币)。
这个价格,让 Agent 从少数人的奢侈品,变成了人人都能用得起的日用品。
MCP 协议
Agent生态做起来,其中很重要的一点就是MCP协议。
因为一个智能体要干活,就得调用各种工具(API、数据库等)。
当你有M个智能体和N个工具时,点对点的连接会变成一场M×N的集成噩梦。
所以通过MCP把所有工具统一接入、认证、管理,并转成智能体能理解的标准语言。这就非常方便了,不管是手机端、还是电脑端,即插即用。
随便跑一个任务,最少就要调用搜索+browser_use工具。
持久化状态管理
这一点也非常的重要,比如说,你登陆微博、小红书,第一次你让用户去登录那肯定没问题。
但是要是每一次任务执行,拉起的云环境都要用户去登录配置,那这个应用注定要被用户diss。
可观测性与护栏
安全性、可溯源性、可调试,属于老生常谈的问题了。
操作被准确记录,哪些文件可以精准控制,哪些是红线。
最后
一个比较深刻的工程哲学可以分享给大家,当模型能力有上限时,与其死磕模型,不如优化环境。
如果AutoGLM的无障碍模式技术路线沿用的话,他就要考虑各种数据问题:
- 每个人的手机App版本、UI布局都不一样。
- 操作过程中随时可能弹出广告、通知。
- 手机型号千奇百怪,折叠屏、刘海屏……
让大模型去适配这种无限的混乱,成本太高,几乎是不可能完成的任务。
但是将AutoGLM2部署在云环境里。所有的配置都是统一、固定的。带来的结果就是任务成功率飙升~
