OpenAI发布AgentKit,帮开发者更快打造AI Agent

发布于 2025-10-13 07:09
浏览
0收藏

在最近结束的OpenAI DevDay上,Sam Altman宣布推出AgentKit,这是一个全新工具包,专门为开发者设计,让构建和部署AI Agent变得更简单。

过去几年,agentic systems和自动化成了AI领域最激动人心的方向之一。你可能用过或听说过像n8n、Langchain或者Make这样的工具。它们很厉害,但我也能理解为啥有些人不太敢用。这些工具复杂,需要不少技术背景知识,而且扩展起来成本不低。

AgentKit是OpenAI的一次尝试,目的是把原本复杂的过程变得简单。你不再需要一堆frameworks、SDKs和APIs才能搞定一件事。现在,你可以直接在OpenAI的生态系统里设计、测试和部署AI Agent。

这篇文章,我会给你讲讲AgentKit是什么,它能干啥,还有你咋开始自己动手造Agent。

咱们开始吧!

AgentKit是啥?

AgentKit是一个模块化的工具包,用来构建、部署和优化AI Agent。它的目标是降低搭建和维护多Agent系统的麻烦。你可以用它设计可视化的workflows,连上外部数据源,甚至还能把你的Agent嵌入到应用或网站里。

OpenAI发布AgentKit,帮开发者更快打造AI Agent-AI.x社区

AgentKit有三大核心组件:

  • Agent Builder:这是个可视化的workflow创建画布,用来打造和版本化多Agent的workflows。
  • Connector Registry:Agent经常需要连到像Google Drive或APIs这样的数据源。Connector Registry把这些连接集中管理,还提供现成的连接器,比如支持Microsoft Teams和SharePoint。
  • ChatKit:Agent建好后,下一步是把它嵌入到你的应用或网站里——这可能会涉及streaming和交互等复杂问题。AgentKit的ChatKit让这事变得简单,提供一个开箱即用的可定制chat UI。

OpenAI说,他们的目标不是要重新发明现有frameworks,而是围绕自己的models和APIs统一体验。他们还提到,Canva用ChatKit不到一小时就搞定了一个支持Agent,省了两周的工作量。

AgentKit怎么上手?

AgentKit就在OpenAI平台里。如果你已经有OpenAI账号,登录后在侧边栏找到Agents部分。

登录后,创建一个organization,然后在左侧菜单里找到Agents部分。从这里,你可以看看关于AI Agents和AgentKit的文档。

OpenAI发布AgentKit,帮开发者更快打造AI Agent-AI.x社区

接下来,我会带你一步步了解怎么构建和部署Agent。

用Agent Builder设计Workflows

一个workflow把Agent、工具和逻辑组合成一个系统,来处理你的任务或对话。它定义了每一步和每个动作,生成可直接部署的代码。

打开Agent Builder工具开始吧。

它提供了一个可视化的画布,你可以用拖拽节点的方式组合逻辑、连接工具,还能设置自定义的guardrails。

OpenAI发布AgentKit,帮开发者更快打造AI Agent-AI.x社区

在dashboard上,你会看到几个模板,可以试试看,感受一下怎么用。

咱们拿Data Enrichment这个例子来说,它会用web search研究一家公司,然后给出一份总结分析。

Agent Builder是个基于节点的工具。左侧你可以拖拽一堆工具、逻辑或数据元素到workflow里,随你怎么连。

OpenAI发布AgentKit,帮开发者更快打造AI Agent-AI.x社区

核心节点包括:

  • Core nodes:这些是基本构建块。所有workflows都包括start和agent节点。
  • Tool nodes:这些让你给Agent配上外部服务和工具。你可以拉取数据、监控滥用情况,或者连上APIs和数据库。
  • Logic nodes:这些让你写自定义逻辑,定义控制流。比如,你可以基于特定条件循环,或者在继续操作前问用户要不要确认。

以公司研究Agent为例,这个workflow有三个节点:

  • Start node:定义workflow的输入。所有chat start nodes都用input_as_text作为输入变量,但你也可以按需加state variables。
  • Web search agent:AI会根据start node的用户输入,研究公司信息。它会按以下指令从网上抓数据:OpenAI发布AgentKit,帮开发者更快打造AI Agent-AI.x社区
  • 在model下拉菜单里,记得选对LLM。我这例子选的是GPT-5 Mini,这是核心智能,能推理、做决策、处理数据。
  • Summarize agent:这个节点把研究Agent返回的数据总结一下,按这个指令:OpenAI发布AgentKit,帮开发者更快打造AI Agent-AI.x社区
  • 输出质量也取决于LLM。我建议用GPT-5,能拿到最好的结果。

现在来看看实际效果。点右上角的Preview按钮测试。你会进入一个基于聊天的界面,可以试试Agent。比如,输入提示“Analyze NVIDIA”。

你会看到每个节点怎么处理信息,每步拉取的数据都会清楚显示在屏幕上。对于“Web research”Agent,输出是这样的:

{
  "companies":[
    {
      "company_name":"NVIDIA Corporation",
      "industry":"Semiconductors / AI / Graphics Processing Units (GPUs) / Data Center & Edge Computing",
      "headquarters_location":"Santa Clara, California, USA",
      "company_size":"10,000-50,000",
      "website":"https://www.nvidia.com",
      "description":"NVIDIA是GPU和加速计算平台的领先开发者,驱动游戏、专业可视化、数据中心和AI工作负载。产品组合包括GeForce(消费级游戏GPU)、NVIDIA RTX(实时光追和内容创作)、NVIDIA Data Center GPUs(A100/H100类加速器),以及NVIDIA AI软件栈(CUDA、cuDNN、TensorRT和NVIDIA AI Enterprise套件)。NVIDIA还提供系统(DGX)、通过Mellanox收购的网络技术,以及自动驾驶(NVIDIA DRIVE)和边缘AI(Jetson)平台。NVIDIA以GPU性能市场领先、开发者生态强大、在大型AI模型训练和推理中占主导地位而闻名。",
      "founded_year":1993
    }
]
}

对于“Summarize and display”Agent,输出是这样的:

{
  "company_name":"NVIDIA Corporation",
"industry":"Semiconductors, AI/ML Accelerators, Data Center & Edge Computing, Graphics",
"headquarters_location":"Santa Clara, California, USA",
"company_size":"10,000–50,000",
"website":"https://www.nvidia.com",
"description":"NVIDIA设计GPU和全栈加速计算平台,用于游戏、专业可视化、数据中心、自动驾驶和边缘AI。其产品覆盖GeForce和RTX,面向消费者和创作者;数据中心加速器(如A100、H100、B100类),搭配CUDA、cuDNN、TensorRT和NVIDIA AI Enterprise;端到端系统如DGX、HGX和Grace/Grace Hopper;Mellanox的高速网络(InfiniBand、Ethernet、DPUs/BlueField);以及Jetson嵌入式AI和DRIVE自动驾驶平台。NVIDIA在大型AI模型训练和推理上领先,靠强大的开发者生态和软件护城河支撑。",
"founded_year":1993
}

很酷吧!最终输出用JSON格式结构化得漂亮。你得自己负责输出JSON格式的结构。上面的例子中,schema是这样的:

你也可以切换到Advanced标签,手动输入JSON格式结构。

发布你的Agent Workflow

确认workflow没问题后,点右上角的Publish按钮。你需要给Agent命名和设置版本,发布后,这个workflow就能通过API用了。

然后你可以用ChatKit嵌入,或者用生成的Workflow ID直接从后端调用。

这过程挺长的,我打算另外写篇文章详细讲。但先给你个概念,这是一个服务端代码的例子:

export default async function getChatKitSessionToken(
  deviceId: string
): Promise {
  const response = await fetch("https://api.openai.com/v1/chatkit/sessions", {
    method: "POST",
    headers: {
      "Content-Type": "application/json",
      "OpenAI-Beta": "chatkit_beta=v1",
      Authorization: "Bearer " + process.env.VITE_OPENAI_API_SECRET_KEY,
    },
    body: JSON.stringify({
      workflow: { id: "wf_68df4b13b3588190a09d19288d4610ec0df388c3983f58d1" },
      user: deviceId,
    }),
  });

  const { client_secret } = await response.json();

  return client_secret;
}

client secret是你的ChatKit前端用来开启或刷新聊天会话的凭证。想了解更多,查查GitHub上的chatkit-js仓库。

最后,客户端的聊天界面长这样:

我不知道你咋想,但我超爱这个界面!它现代、响应式,动画很赞,定制化程度也高得离谱。

未来,OpenAI还计划推出Workflows API,让程序化触发这些Agent更简单。

这还是早期,但显然OpenAI在考虑扩展性。AgentKit可能会成为在ChatGPT或其他OpenAI托管服务里跑更大、更自主系统的基础。

可用性和定价

ChatKit在发布时就对所有开发者开放。Agent Builder还在beta阶段。Connector Registry会以beta形式向API用户、ChatGPT Enterprise和Education客户通过Global Admin Console推出。

AgentKit的所有工具都包含在正常的API model定价里。你可以在这里了解API的定价详情。

OpenAI说,他们计划未来推出Workflows API和专门为ChatGPT的Agent部署功能。

总结

我还没完全摸透AgentKit的所有功能和潜力,但作为一个有AI Agent开发经验的人,想到它能解锁的workflows和用例就觉得很疯狂。

论复杂性,像n8n或Langchain这样的工具还是领先。它们功能更丰富,能处理更深入的自动化任务,而且是open source。很多人会说OpenAI的版本只是追赶,短时间内不会取代这些平台。但我觉得AgentKit不是要取代它们,它提供的是选择性。

现在,AgentKit能做的事,n8n都能做。但能在OpenAI生态系统里直接创建workflows,对很多开发者来说是游戏规则的改变。你不用额外搞一堆设置或订阅来用AI模型。这能省不少成本,不过我也不会光因为这个就建议你换。

我个人很期待试试ChatKit,看看它在我的产品里聊天界面会是啥样。我会记录这个过程,敬请期待我未来的帖子。

本文转载自​PyTorch研习社​,作者:AI研究生

已于2025-10-13 10:43:01修改
收藏
回复
举报
回复
相关推荐