
OpenAI 最新发布 ChatGPT Agent 架构设计剖析 原创
7月17日,OpenAI 重磅发布了 ChatGPT Agent。ChatGPT Agent 的核心是一个统一的智能体系统。它融合了 ChatGPT、Deep Research、Operator 三大技术突破的优势:Operator 与网站交互的能力,Deep Research 整合信息的技巧,以及 ChatGPT 智能对话优势。
因此它不再是一个简单的问答机器人,而是一个能够主动思考并自主执行任务的 AI 智能体。本文将深入剖析 ChatGPT Agent 的技术架构、核心能力、应用场景、安全限制。
下文我们详细剖析之。
一、ChatGPT Agent 概述
1、ChatGPT Agent 是什么?
ChatGPT 现可通过其自有虚拟计算机为您处理任务,能够流畅地在推理与执行之间切换,全程独立完成复杂任务。
ChatGPT Agent 将 Operator 与网站交互的能力、深入研究在整合网络信息方面的优势,以及 ChatGPT 的对话能力有机融合,形成一个统一的 AI 智能体系统。这意味着您现在可以将想法和问题转化为实际行动——无论是进行深入的财务研究、填写在线表格,还是制作精美的幻灯片。按照您的指示,ChatGPT 将为您完成这些工作,从而加快您的工作进度,同时释放您的时间,让您能够专注于一天中的其他事务。
让 ChatGPT 处理诸如“查看我的日历,并根据最新动态简要汇报即将举行的客户会议”或“分析三个竞争对手并制作幻灯片演示文稿”等请求。它将智能地浏览网站、选择日期、筛选结果、提示您安全登录、运行代码,甚至生成经过润色且可编辑的输出内容——例如:幻灯片演示文稿和电子表格——以总结其分析结果。
最重要的是,您始终掌握控制权。ChatGPT 在执行重要操作前会先征得您的许可,您可随时中断操作、接管浏览器或停止任务。
2、与传统 ChatGPT 的区别
二、ChatGPT Agent 技术架构和核心能力剖析
1、ChatGPT Agent 技术架构剖析
ChatGPT Agent 技术架构由:统一 AI 智能体架构设计、双浏览器架构设计、虚拟计算机环境架构设计构成。
第一、统一 AI 智能体系统架构设计
ChatGPT Agent 的架构设计是 OpenAI 的一次“大统一”尝试。它不是简单地拼接功能模块,而是重新设计了一套能够无缝协作的系统架构,确保各个组件之间高效协同。
第二、双浏览器架构设计
ChatGPT Agent 使用两种不同的浏览器与在线服务交互:
这种设计让 AI 智能体具备了“左右手”,能够灵活应对各种任务。
- 文本浏览器(左手):专门处理结构化数据,快速提取关键信息,适合 API 调用和数据分析。
- 可视化浏览器(右手):模拟人类操作习惯,处理复杂的 GUI 界面,适合电商购物、表单填写等任务。
第三、虚拟计算机环境架构设计
ChatGPT Agent 使用自己的虚拟计算机,能够导航网站、筛选结果、提示用户登录,并提供摘要。这个虚拟环境相当于为 AI 智能体分配了一台专属的“云电脑”,使其能够真正“动手操作”。
2、ChatGPT Agent 核心能力解析
ChatGPT Agent 整合了 Operator 的网页操作能力、Deep Research 的信息综合能力以及 ChatGPT 的对话能力,形成了一个“三位一体”的强大 AI 智能体系统。它不仅能够处理文本,还能操作多媒体文件,提供端到端的解决方案。
三、ChatGPT Agent 实际使用场景
ChatGPT Agent 在很多场景都能很好赋能,本文主要剖析以下3类典型使用场景。
1、商务办公场景
- 竞争分析报告:用户可以要求“分析三个竞争对手并制作幻灯片”。ChatGPT Agent 会自动搜索指定的竞争对手,访问官网、新闻报道和财务报告,提取关键信息,生成包含图表和数据对比的 PPT,并提供可编辑文件供用户完善。
- 财务分析助手:ChatGPT Agent 在财务分析方面表现出色,能够建立详细的成本结构标签并集成到报告中。
2、研究分析场景
ChatGPT Agent 在研究方面的能力尤为强大,可以:
- 搜集多个来源的信息。
- 交叉验证数据的准确性。
- 生成结构化的研究报告。
- 提供引用和参考链接。
3、日常生活场景
- 购物助手:用户可以要求“为周末聚会购买食材,预算控制在200元内”。ChatGPT Agent 会搜索附近超市的在线商城,比较价格和配送时间,优化购物清单,并在用户确认后完成购买。
- 旅行规划:用户可以要求“计划一次三天两夜的京都之旅”。ChatGPT Agent 会搜索航班和酒店信息,制定详细行程安排,预订必要服务(需用户确认),并生成完整的旅行手册。
四、ChatGPT Agent 安全性与限制
1、安全防护机制
OpenAI 在 ChatGPT Agent 的安全设计上下了大功夫。该模型被训练拒绝高风险任务,比如:银行转账,并且开发了新的保护措施来防止黑客滥用其功能,特别强调阻止隐藏在网页中的恶意提示词。
2、使用限制分析
- 访问权限限制:ChatGPT Agent 目前向 Pro、Team 和 Plus 用户推出。Pro 计划用户每月可以使用400条消息,Team 和 Plus 用户每月获得40条消息。
- 功能限制:
a.不能执行涉及金融交易的高风险操作。
b.需要用户授权才能访问敏感信息。
c.某些操作(比如:发送邮件)需要用户监督。
3、风险控制策略
Sam Altman 建议:“我会向家人解释这是前沿和实验性的技术。虽然这是尝试未来的机会,但对于高风险用途或涉及大量个人信息的情况,我建议暂时不要使用,直到我们有机会在实际使用中研究和改进它。”
本文转载自玄姐聊AGI 作者:玄姐
