刚刚,霸气的谷歌又赢了!

发布于 2025-10-8 23:15
浏览
0收藏

编辑 | 云昭

刚刚过去的24小时,是谷歌又一次的高光时刻。

今天的谷歌,发生了两件大事。

两年,5位得主诺奖再一次花落谷歌系

不到9个小时前,谷歌CEO皮查伊骄傲的心情再一次藏不住了。

当得知自家量子AI实验室的两位大佬又一次获得了诺贝尔物理学奖时,他忍不住在X上置顶了一条推文。

刚刚,霸气的谷歌又赢了!-AI.x社区图片

“祝贺 Michel Devoret、John Martinis 和 John Clarke 获得诺贝尔物理学奖。🔬🥼

Michel 是我们量子 AI 实验室的硬件首席科学家,John Martinis 多年来一直领导该实验室的硬件团队。

他们在上世纪 80 年代量子力学领域的开创性研究,使得如今的突破成为可能,也为未来可实现误差校正的量子计算机奠定了基础。

我昨天刚在圣塔芭芭拉的量子实验室看到令人惊叹的进展,希望他们今天能好好庆祝。今早感到无比幸运——能在一家拥有 5 位诺贝尔奖得主的公司工作,而且仅两年就拿下了 3 个奖项!”

刚刚,霸气的谷歌又赢了!-AI.x社区图片

去年的诺奖的得主还记得吗,辛顿和现任DeepMind CEO Demis,这两位也都是谷歌系的。

刚刚,霸气的谷歌又赢了!-AI.x社区图片

刚刚,霸气的谷歌又赢了!-AI.x社区图片

小编这就帮大家梳理下,近两年,谷歌有哪些诺贝尔奖得主(现任或校友)。

  1. Geoffrey Hinton
  • 所属:曾在 Google Brain 工作。
  • 获奖情况:2024 年诺贝尔物理学奖。
  • 奖项理由:因其在机器学习与神经网络方面的基础性发现与发明,这些发现与发明使现代人工智能尤其是深度学习成为可能。
  1. Demis Hassabis
  • 所属:Google DeepMind 的联合创始人兼 CEO。
  • 获奖情况:2024 年诺贝尔化学奖。
  • 奖项理由:与 John Jumper 等一起通过 AI 模型(AlphaFold2)预测几乎所有已知蛋白质结构,解决了生命科学中长期未解的蛋白质结构预测问题。
  1. John Jumper
  • 所属:Google DeepMind 的资深研究科学家。
  • 获奖情况:与 Hassabis 共同获得 2024 年诺贝尔化学奖。
  • 奖项理由:同上,参与 AlphaFold2 项目,蛋白质结构预测。
  1. Michel Devoret
  • 所属:现为 Google Quantum AI 的硬件首席科学家。
  • 获奖情况:2025 年诺贝尔物理学奖。
  • 获奖理由:他与 John Martinis, John Clarke 等人的研究在 1980 年代展示了宏观量子隧穿现象,在电路中观察到量子能级的量子化,为超导量子比特和量子计算机的硬件基础奠定了基础。

5. John Martinis

  • 所属:曾长期领导 Google 的量子硬件团队(Google Quantum AI)。
  • 获奖情况:2025 年诺贝尔物理学奖,与 Michel Devoret 和 John Clarke 共同获得。
  • 获奖原因:同上,参与上述宏观量子效应的实验与电子电路的设计。

谷歌发布最新版本:计算机使用(computer-use)模型

今天,让皮查伊高兴的另一件事,则是其DeepMind实验室发布的最新Gemini 2.5 Pro的版本: “Gemini 2.5 Pro Computer Use”。

顾名思义,它并不是一个普通的聊天模型。这一版本专门强化了与用户界面的直接交互能力,包括网页与移动端应用。

它会“看屏幕”,系统会给它网页截图、历史操作记录,然后让它决定下一步该点击哪里、输入什么。这一循环持续进行,直到任务完成或出现错误。

据谷歌blog中介绍,该模型经过了专门微调与定制训练,可以通过虚拟浏览器为用户执行网页操作:上网检索、填写表单,甚至直接在网站上采取行动——只需用户输入一句文字指令。

在安全层面,谷歌设置了严格限制——比如,当模型遇到验证码(CAPTCHA)时,它可以生成点击动作,但必须等待人工确认,不能私自越权。

换句话说,Gemini 2.5 已经具备“行动力”,但还处于“有安全带的自由”阶段。

皮查伊在社交平台 X 上发文称:“目前还只是早期阶段,但模型能够与网页交互——比如滚动、填写表单、导航下拉菜单——这是构建通用智能体(general-purpose agents)的重要一步。”

刚刚,霸气的谷歌又赢了!-AI.x社区图片

不过,该模型目前尚未面向普通消费者开放。

但这并不影响大家对于该款模型的热情。Hackernews上,网友的讨论已经热闹了起来。

大家热议的点在于,让AI帮自己操作计算机或手机,的确有不少刚性需求,比如下面爱骑车听播客的这位。

刚刚,霸气的谷歌又赢了!-AI.x社区图片

值得注意的是,OpenAI很早就开始了这方面的探索,今年年初,智能体Operator访问网站的例子让人印象深刻。而在假期前,Anthropic 也发布了最强版本的Claude Sonnet 4.5,computer use 也是其主打的宣传点之一。

那么,这次谷歌新发布与Operator、Sonnet 4.5 相比,有何不同呢?

答案就是,Gemini 2.5 Computer Use 目前的核心能力聚焦在网页与移动端界面操作:点击、输入、滚动,并没有支持直接创建文件——它无法生成PPT、Excel或文档。

若需结构化输出(如文件),则需由开发者通过自定义代码或第三方工具处理。

但这反而让它的定位更纯粹:Gemini 2.5 是一个专门面向“界面交互自动化”的Agent,而不是一个全能的文件助理。

|工作原理:指令+截图+操作记录

由 Computer Use 模型驱动的智能体在一个“交互循环”中运行。每次循环中,它接收以下输入:

  1. 用户任务指令
  2. 当前界面截图
  3. 历史操作记录

模型分析后输出一个界面操作建议,比如点击按钮或在输入框中键入内容。如任务涉及风险(例如购买行为),模型会请求用户确认。

执行后,系统会截取更新的界面截图并重新输入模型,循环持续,直到任务完成或被错误/安全机制中止。

模型使用专门的 computer_use 工具,可通过 Playwright 或 Browserbase 的沙盒环境集成到自定义系统中。

|哪里可以体验?

这次谷歌选择了一家名为 Browserbase 的公司进行首批合作。

这家公司由前 Twilio 工程师 Paul Klein 于 2024 年初创立,提供专为 AI agent 和应用设计的虚拟“无头浏览器”服务。所谓“无头浏览器”,是指无需图形界面(GUI)即可浏览网页的浏览器——不过 Browserbase 为用户显示了一个可视化的网页操作界面。

用户现在可以在 Browserbase 网站上直接体验 Gemini 2.5 Computer Use,并能与 OpenAI 或 Anthropic 的同类产品做对比——Browserbase 为此推出了一个新的“Browser Arena”比拼平台(但每次只能选一个竞争模型与 Gemini 同时对比)。

对于 AI 开发者而言,这款模型可通过 Gemini API(在 Google AI Studio) 和 Google Cloud 的 Vertex AI 模型平台获取,用于快速原型开发。

|实测:能选中摩托车的AI,秒过验证

在媒体的早期测试中,Gemini 2.5 成功打开了泰勒·斯威夫特的官方网站,并准确描述了首页展示的内容。

更有意思的是,在另一项任务中,它被要求在亚马逊上查找高评分的太阳能灯。途中遇到 Google 搜索验证码“请选择所有有摩托车的方格”时,Gemini 2.5 居然秒过——证明它能“看懂”并“选择”。

虽然最终任务卡在后续页面,但这已经算得上是一种质变:相较于之前的浏览索索,这次真真儿是一个能执行视觉与操作任务的系统。

|性能评测

谷歌称,Gemini 2.5 Computer Use 在多个界面操作基准测试中表现领先,超越了包括 Anthropic Claude Sonnet 和 OpenAI Agent 在内的主要竞争者。测试由 Browserbase 与谷歌团队共同进行。

刚刚,霸气的谷歌又赢了!-AI.x社区图片

部分结果如下:

  • Online-Mind2Web(Browserbase):Gemini 2.5 得分 65.7%,Claude Sonnet 4 为 61.0%,OpenAI Agent 为 44.3%。
  • WebVoyager(Browserbase):Gemini 2.5 得分 79.9%,Claude Sonnet 4 为 69.4%,OpenAI Agent 为 61.0%。
  • AndroidWorld(DeepMind):Gemini 2.5 得分 69.7%,Claude Sonnet 4 为 62.1%;OpenAI 模型因访问受限未能测评。
  • OSWorld:Gemini 暂不支持;竞争者最高成绩为 61.4%。

谷歌补充称,该模型延迟更低,在 UI 自动化与测试类场景中表现尤为出色。

|企业级落地:谷歌自己也在用

谷歌称,内部和外部多个团队已在不同场景中使用该模型:

  • Google 支付团队表示,该模型能恢复超过 60% 的失败测试用例,显著减少工程低效。
  • Autotab(第三方 AI agent 平台)称该模型在复杂数据解析任务上性能提升达 18%。
  • Poke.com(主动式AI助手公司)指出,Gemini 模型在界面交互中速度比竞品快 50%。
  • 此外,该模型也被用于谷歌内部项目,如 Project Mariner、Firebase 测试代理,以及 Search 中的 AI 模式。

|安全与约束:谷歌设置了多层安全带

由于模型能直接控制软件界面,谷歌强调采用多层安全机制:

  • 每一步操作前都有安全服务审查。
  • 开发者可设定系统级指令来阻止或强制确认特定行为。
  • 模型内置安全防护,防止触发敏感或违规操作。

例如,当模型遇到验证码(CAPTCHA)时,会生成点击动作,但标记为“需用户确认”,防止自动绕过安全验证。

|价格政策:仅支持付费用户

Gemini 2.5 Computer Use 的定价与标准版 Gemini 2.5 Pro 基本一致。

但在访问层级与功能上有所不同:

  • Gemini 2.5 Pro 提供免费层,开发者可免费调用(受限于速率或配额),并包含输入与输出 token。
  • 一旦超出配额或切换到付费层,按标准费率计费。
  • Gemini 2.5 Computer Use 则仅提供付费层,没有免费访问。

此外:

  • Pro 版支持“上下文缓存”(每百万 token 收费 $0.31)与“Google 搜索接地”(每日1500次免费,之后每千次$35)。但 Computer Use 暂不支持这些功能。
  • 在数据使用政策上,Computer Use 的付费使用不会用于改进谷歌产品,而 Pro 免费层的数据则默认用于模型优化(除非用户选择退出)。

总的来说,两款模型的 token 成本相近,但开发者应依据访问层、功能需求及数据政策选择使用哪一版本。

为什么谷歌如此恐怖?

谷歌,又是谷歌。有没有发现,谷歌已经在一次又一次浪潮中始终站在前沿?不管是现在大火的GenAI,还是更有未来想象力的量子计算。

为什么谷歌创造了这么多前沿贡献?小编看来有这样几点:

首先,谷歌自诞生之初就有一种研究文化,天然会把科学家放在核心位置。

谷歌一开始就不是一家“纯互联网公司”,而是由两个博士(拉里·佩奇和谢尔盖·布林)在斯坦福实验室里创立的。这意味着它的DNA里天然带着“科研导向”——从论文出发解决实际问题。

据了解,Google Research 和 DeepMind 的团队结构跟大学实验室几乎一模一样,研究员们不以“交付KPI”为核心,而以“发表论文、推动领域前沿”为荣。

许多顶级科学家都愿意留下来,因为他们在谷歌不仅能拿到顶薪,还能在工业界做出诺奖级的基础科学突破。

其次,基础科学投入超常。谷歌的研发支出是全世界最高之一(可以说是按国家级实验室级别来烧钱的),单2024年就超过 430亿美元,而其中很大一部分投入了没有短期商业回报的项目,比如:量子计算(Google Quantum AI)、深度学习(Google Brain、DeepMind)、AI 芯片(TPU)、材料科学、生物信息学(AlphaFold)等等。

而大家都知道,许多公司往往是把ROI放在第一位的。而谷歌他们的逻辑是:基础科学一旦突破,未来的商业生态会自动生长出来(比如 AlphaFold→药物发现、TPU→云计算)。

其次,当然这些也看得出来,也是谷歌的超前的科研布局。谷歌每10年都会做几次“豪赌”:

  • 2010s:赌 AI → 成功(Google Brain、DeepMind)
  • 2020s:赌 Quantum → 已见成果(量子霸权、2025诺奖)
  • 2030s:可能赌 AGI 或 AI+生物、AI+能源

这种布局让谷歌总能站在下一个科学前沿的入口。诺奖得主的集中出现,正是这些“长线投注”的副产品。

第四点,开放协作 + 学术生态。

谷歌和学界的边界非常模糊。它的研究员可以:

  • 持续在 Nature、Science、NeurIPS 等顶会发论文;
  • 兼任高校教授(比如 Devoret 在耶鲁、Hassabis 在剑桥都有研究身份);
  • 与全球大学联合培养博士后或实验项目。

这让谷歌成了学界的“延伸实验室”——科学家不必离开科研生态就能获得工业级资源。

第五点,文化层面上看,管理者皮查伊自带的“科学信仰”。

大家可能不知道,Sundar Pichai 本人是材料科学出身的工程师,而非纯商业背景的CEO。

他对科研的态度非常“宽容”——允许团队做高风险、高成本的探索项目(比如 Waymo、Verily、Quantum AI)。

他常说一句话:“我们不做每一个可能赚钱的项目,只做那些能让科学往前走的事。”

这句话其实解释了谷歌的核心逻辑——科学带来垄断,创新是最好的护城河。

参考链接:

​https://blog.google/technology/google-deepmind/gemini-computer-use-model/​

​https://www.nobelprize.org/all-nobel-prizes-2025/​

本文转载自​​51CTO技术栈​​,作者:云昭

收藏
回复
举报
回复
相关推荐