干翻全场!OpenAI深夜发布通用Agent 原创 精华

发布于 2025-7-18 11:34
浏览
0收藏

嘿,大家好!这里是一个专注于前沿AI和智能体的频道~

家人们,昨晚 OpenAI 直播,不声不响地甩出了一个重磅产品:ChatGPT Agent 正式发布! 

一个全新产品,把之前的 Operator(网页操作)和 Deep Research(深度研究)能力真正合体,塞进了一个统一的系统里。让 ChatGPT 有一个可以自己操作的虚拟电脑,从头到尾地干完一件复杂的活儿。

今天给家人深度分析一下这个新产品的功能与特性,以及对市场上同类型产品的影响。

通用智能体?

首先要搞清楚,这次的 Agent 不是一个新产品,而是 ChatGPT 的一次能力糅合。它把三种看家本领融为一体:

  1. 能力一: operator  - 像人一样点击、滚动、输入,直接与网页的图形界面(GUI)互动。
  2. 能力二: Deep Research  - 强大的信息分析、推理和总结能力。
  3. 能力三: 4o - 流畅的自然语言交互能力。

这三者结合,让 ChatGPT Agent 可以在一个专属的虚拟环境中,根据你的指令,自主规划、调用工具、执行任务。比如,你可以直接甩给它一句:“分析三个竞争对手,做个PPT出来”。它会自己去上网搜集资料、分析数据、总结要点,最后交付一个你可以直接编辑的PPT文件。

整个过程,你都能在屏幕上看到它的“思维链”和操作步骤,就像在看一个超级助理帮你干活。

5个核心亮点

简单总结了一下,新产品的5个亮点功能,当然可能别的通用智能体也有。

端到端任务执行

可以理解用户的模糊需求,上网筛选信息,再到登录网站、填写表单、下载文件,最后生成报告,可以一气呵成。

官方演示了一个例子,让它预订一个“罗马评分最高的一日游”。它会自己打开 TripAdvisor,筛选、比较,然后把最畅销的那个找出来,整个过程挺流畅。

干翻全场!OpenAI深夜发布通用Agent-AI.x社区

人机协作

在执行任何关键或不可逆操作(比如下单付款、提交表单)之前。 都会请求用户确认。

你随时可以暂停任务,也可以直接“接管”它的浏览器自己操作,整个过程控制权都在你手里。

可编辑、可复用的专业级输出

生成的结果是可以原生编辑的 PPT 和 Excel 文件。

干翻全场!OpenAI深夜发布通用Agent-AI.x社区

这意味着它帮你做的竞品分析PPT,你可以直接打开修改图表和文字。在 ​​SpreadsheetBench​​ (表格处理) 测试中,它的准确率达到了45.5%,是 Excel Copilot 的两倍还多!

干翻全场!OpenAI深夜发布通用Agent-AI.x社区

性能数据

不看广告看疗效。官方博客公布了一系列性能数据,基本都是“屠榜”级别的。

HLE 得分 41.6%,再次刷新 SOTA。

干翻全场!OpenAI深夜发布通用Agent-AI.x社区

在构建财务模型的复杂任务上,准确率达到 71.3%,显著优于之前的 o3 和 Deep Research。

干翻全场!OpenAI深夜发布通用Agent-AI.x社区

在网上寻找刁钻信息的任务中,创下了 68.9% 的新纪录。

干翻全场!OpenAI深夜发布通用Agent-AI.x社区

总的来说,就是新产品的能力在多个专业领域都已经达到了非常高的水准。

可定时执行

结合了之前的任务能力,新产品用户同样可以安排一个已经完成的任务,让它自动重复执行。

比如,你可以让它“每天早上,帮我生成一份关于xxx的动态报告”。

干翻全场!OpenAI深夜发布通用Agent-AI.x社区

它会干掉Manus们吗?

ChatGPT Agent 如此强大,那是不是意味着 Manus、Genspark 这类创业公司的末日到了?

manus还发了一个帖子,用了一些样例对比他们的结果和chatgpt agent的结果~

干翻全场!OpenAI深夜发布通用Agent-AI.x社区

当前有2个现实问题。

目前价格昂贵

强大功能背后是高昂的成本。根据目前公布的信息,这玩意儿可不便宜:

  • Pro 用户:每月 400 条 Agent 消息额度。
  • Plus 和 Team 用户:每月仅 40 个额度。

用完就得花钱买。对于需要长时间、高强度执行任务的专业用户来说,这个成本可能会非常高。相比之下,目前来自一些创业公司的智能体产品的定价可能会便宜一些。(尽管 manus 的定价也被吐槽~)。

安全问题

官方提及,当一个 AI 能自己上网、登录你的账户、操作你的数据时,安全问题就变得非常重要。

比如说,一个恶意网站在看不见的地方藏了一段prompt hack,诱骗你的 Agent 把你的个人信息发给攻击者。

因为 Agent 拥有了实际操作权,这种攻击的危害比以往任何时候都大。尽管 OpenAI 做了很多防护(比如高风险操作需确认、Watch Mode 监视模式等),但问题仍然存在。

干翻全场!OpenAI深夜发布通用Agent-AI.x社区

最后

对于那些致力于通用型 Agent 的创业公司来说,这无疑是一次降维打击。当平台方亲自下场,并拿出在性能、集成度上都遥遥领先的产品时,留给其他玩家的空间就被极大地压缩了。

未来的机会,或许更多地在于那些更垂直、更深入特定行业场景的专用 Agent,或者是在开源生态中提供差异化价值的框架和工具


本文转载自​探索AGI​,作者:猕猴桃


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-7-18 11:38:29修改
收藏
回复
举报
回复
相关推荐