
刚刚,OpenAI 开源了两个 Agent 项目,手搓 Manus 时代来袭 原创
OpenAI 刚刚举办了一场针对开发者的直播活动,推出了全新的 Agent 开发套件,旨在助力开发者打造稳定而强大的 AI Agents。以下是该套件的核心组成部分:
Agents Blog:
https://openai.com/index/new-tools-for-building-agents
1、内置工具:套件内置了多种工具,包括网页搜索、文件搜索以及电脑操作(Computer Use)功能。
Built-in tools:
https://platform.openai.com/docs/guides/tools?api-mode=responses
2、Responses API:推出了一款新的响应 API,它融合了 Chat Completions API 的简易性和 Assistants API 的工具使用能力,适用于构建 AI Agents。
Responses API:
https://platform.openai.com/docs/api-reference/responses
3、Agents SDK:提供了一套用于协调单智能体和多智能体工作流程的 SDK。
Agents SDK 项目:
https://github.com/openai/openai-agents-python
4、监控工具:集成了可观察性工具,用于跟踪和检查 Agent 工作流程的执行情况。
特别值得一提的是,Agents SDK 是开源的,并且 OpenAI 还开源了一个名为 Computer Using Agent 的项目。以下是两个项目的详细介绍:
第一、Agents SDK 项目
OpenAI Agents SDK 是一个轻量级但功能丰富的框架,用于创建多智能体工作流程。
核心概念:
Agent(智能体):基于大模型(LLMs)的智能体,通过指令进行配置,配备了工具、防护栏和交接功能。
Handoffs(交接):允许智能体将任务控制权转交给其他智能体。
Guardrails(防护栏):可配置的安全检查,用于输入和输出的验证。
Tracing(追踪):内置的智能体运行追踪功能,方便查看、调试和优化工作流程。
Agents SDK 项目:
https://github.com/openai/openai-agents-python
第二、Computer Using Agent 项目
OpenAI 提供了一个示例应用程序,展示了如何使用 OpenAI API 构建计算机使用 Agent(CUA:Computer Using Agent):
计算机使用工具以循环方式连续运行,发送计算机操作命令(如 click(x,y) 或 type(text)),代码在计算机或浏览器环境中执行这些操作,并将屏幕截图结果返回给大模型。
通过这种方式,代码可以模拟人类在计算机界面上的操作,而大模型则通过屏幕截图来理解环境状态并决定下一步行动。
这种循环机制可以自动执行许多需要点击、输入、滚动等操作的任务,例如预订航班、搜索产品或填写表格。
Computer Using Agent 项目:
https://github.com/openai/openai-cua-sample-app
以下是电脑使用操作的示意图:
本文转载自公众号玄姐聊AGI 作者:玄姐
原文链接:https://mp.weixin.qq.com/s/uVHZcrdhXXeyeXYa-YnMpQ
