超越RPA:Gemini 2.5带来的“视觉+操作”自动化新范式

发布于 2025-10-9 16:15
浏览
0收藏

当我们谈论具身智能(Embodied AI)时,脑海中浮现的往往是那些能够在物理世界中行动的机器人。然而,谷歌DeepMind近期发布的Gemini 2.5 Computer Use模型,正向我们揭示具身智能的另一种深刻形态——一个在数字世界中,拥有了“眼睛”和“手”的软件化身

这一技术突破的核心,是让AI Agent不再仅仅活在由代码和API构成的抽象世界里,而是能够像人类一样,直接感知和操作我们每天都在使用的图形用户界面(GUI),从而在软件层面,实现了“有身有感”。

卓越的视觉理解能力

Gemini 2.5 Computer Use的“眼睛”,构建于其强大的基础模型Gemini 2.5 Pro卓越的视觉-语言能力之上。这意味着,它不再是“阅读”网页的HTML代码,而是真正地“看到”并“理解”一张屏幕截图。

它能够像人类一样,识别出屏幕上哪个是按钮、哪个是输入框、哪个是需要滚动的列表。它能理解UI元素的布局、颜色、文本标签,并结合上下文,推断出这些元素的功能和用户的意图。这种基于视觉的深度理解,是其后续所有精准操作的基础。

精准的界面操作能力

拥有了“眼睛”之后,AI还需要一双能够执行任务的“手”。Gemini 2.5 Computer Use通过生成一系列精确的UI操作指令,扮演了这双手。

其工作流程,是将一个高层的用户目标(例如,“帮我预订一张明天去上海的、靠窗的经济舱机票”),智能地分解为一系列具体的GUI操作步骤,例如:

  • 在出发地输入框中type_text_at“北京”。
  • 在目的地输入框中type_text_at“上海”。
  • 在日期选择器上click_at明天的日期。
  • 在航班列表中找到经济舱选项并click_at
  • 在座位选择图上click_at一个靠窗的位置。

更令人印象深刻的是,该模型还支持并行函数调用。这意味着,在一次响应中,它可以返回多个可以同时执行的、互不干扰的操作指令。这在理论上,使其具备了超越人类顺序操作的潜力,能够实现更高效的多任务处理。

人机协作的新边界

这种“眼手协同”的能力,正在深刻地改变着人机协作的边界。

来自Poke.com和Autotab等早期测试者的反馈显示,Gemini 2.5 Computer Use在执行任务的速度上,比竞争对手通常要快50%,在处理复杂上下文时的可靠性,也实现了高达18%的性能提升。

这表明,这类AI Agent正在从一个需要人类给出精确指令的“工具”,进化为一个能够理解模糊目标、并自主完成整个工作流的“数字同事”。然而,这并非意味着人类角色的消失。行业专家普遍认为,当前阶段最大化软件开发影响力的方式,仍然是显式地使用AI,并始终将人类置于整个开发循环的核心。AI是强大的能力放大器,但人类在设定顶层目标、处理复杂异常、进行最终决策和注入创造性等方面的价值,依然不可或缺。

超越RPA:Gemini 2.5带来的“视觉+操作”自动化新范式-AI.x社区
从浏览器到整个操作系统

尽管能力强大,但我们也应客观认识到Gemini 2.5 Computer Use的当前局限。据官方介绍,该模型目前主要针对网页浏览器进行了深度优化,而尚未针对Windows、macOS等桌面操作系统级的控制进行全面优化。

但这清晰地指明了其未来的发展方向。我们可以畅想,当AI Agent的能力从单一的浏览器窗口,扩展到能够自由地在整个操作系统层面,操作文件、打开应用、设置系统参数时,将会带来怎样一场深刻的生产力革命。届时,我们或许真的只需要通过自然语言对话,就能让AI为我们完成电脑上的一切操作。

Gemini 2.5 Computer Use的发布,为我们揭示了具身智能的另一种可能形态。AI的“身体”,不仅可以是行走于物理世界的钢筋铁骨,也可以是存在于像素之间的、能够娴熟操作我们所有软件的无形之手。这场发生在数字世界中的“具身革命”,其深远影响,或许才刚刚开始。

收藏
回复
举报
回复
相关推荐