超越RPA：Gemini 2.5带来的“视觉+操作”自动化新范式

发布于 2025-10-9 16:15

浏览

0收藏

当我们谈论具身智能（Embodied AI）时，脑海中浮现的往往是那些能够在物理世界中行动的机器人。然而，谷歌DeepMind近期发布的Gemini 2.5 Computer Use模型，正向我们揭示具身智能的另一种深刻形态——一个在数字世界中，拥有了“眼睛”和“手”的软件化身。

这一技术突破的核心，是让AI Agent不再仅仅活在由代码和API构成的抽象世界里，而是能够像人类一样，直接感知和操作我们每天都在使用的图形用户界面（GUI），从而在软件层面，实现了“有身有感”。

卓越的视觉理解能力

Gemini 2.5 Computer Use的“眼睛”，构建于其强大的基础模型Gemini 2.5 Pro卓越的视觉-语言能力之上。这意味着，它不再是“阅读”网页的HTML代码，而是真正地“看到”并“理解”一张屏幕截图。

它能够像人类一样，识别出屏幕上哪个是按钮、哪个是输入框、哪个是需要滚动的列表。它能理解UI元素的布局、颜色、文本标签，并结合上下文，推断出这些元素的功能和用户的意图。这种基于视觉的深度理解，是其后续所有精准操作的基础。

精准的界面操作能力

拥有了“眼睛”之后，AI还需要一双能够执行任务的“手”。Gemini 2.5 Computer Use通过生成一系列精确的UI操作指令，扮演了这双手。

其工作流程，是将一个高层的用户目标（例如，“帮我预订一张明天去上海的、靠窗的经济舱机票”），智能地分解为一系列具体的GUI操作步骤，例如：

在出发地输入框中type_text_at“北京”。
在目的地输入框中type_text_at“上海”。
在日期选择器上click_at明天的日期。
在航班列表中找到经济舱选项并click_at。
在座位选择图上click_at一个靠窗的位置。

更令人印象深刻的是，该模型还支持并行函数调用。这意味着，在一次响应中，它可以返回多个可以同时执行的、互不干扰的操作指令。这在理论上，使其具备了超越人类顺序操作的潜力，能够实现更高效的多任务处理。

人机协作的新边界

这种“眼手协同”的能力，正在深刻地改变着人机协作的边界。

来自Poke.com和Autotab等早期测试者的反馈显示，Gemini 2.5 Computer Use在执行任务的速度上，比竞争对手通常要快50%，在处理复杂上下文时的可靠性，也实现了高达18%的性能提升。

这表明，这类AI Agent正在从一个需要人类给出精确指令的“工具”，进化为一个能够理解模糊目标、并自主完成整个工作流的“数字同事”。然而，这并非意味着人类角色的消失。行业专家普遍认为，当前阶段最大化软件开发影响力的方式，仍然是显式地使用AI，并始终将人类置于整个开发循环的核心。AI是强大的能力放大器，但人类在设定顶层目标、处理复杂异常、进行最终决策和注入创造性等方面的价值，依然不可或缺。

超越RPA：Gemini 2.5带来的“视觉+操作”自动化新范式-AI.x社区
从浏览器到整个操作系统