Gemini 2.5 Pro 电脑使用概述:可以“纵”网络的 AI 智能体

Gemini 2.5 Computer Use 建立在 Google 之前的 Gemini 2.5 Pro 型号之上,并增加了虚拟作网络浏览器的功能。 例如,如果您告诉他们“在此网站上创建一个新帐户”或“在亚马逊上寻找评价很高的太阳能灯”,人工智能实际上会打开浏览器并在单击和打字时执行其目的。

谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 在 X(前身为 Twitter)上表示:

“虽然这仍处于早期阶段,但人工智能滚动、填写表格和下拉作的能力是迈向通用人工智能代理的重要一步。”

该模型不直接提供给普通用户,但可以在名为 Browserbase 的初创公司的环境中用于演示,Browserbase 是 Google 之间的合作伙伴关系。 Browserbase 提供了一个专用的 AI 专用“无头浏览器”,可以与 Gemini 之外的 OpenAI 和 Anthropic 的模型进行比较。

点击、输入和滚动也是自动的

在测试中,Gemini 2.5 Computer Use 按照 Taylor Swift 官网的说明,返回了顶部可用的限量版专辑信息摘要。 此外,在亚马逊上搜索产品的测试中,已证实它在几秒钟内突破了验证码(选择摩托车的图像)进行人类判断

然而,并非所有作都是完美的,一些复杂的任务可能会中途停止。 此外,目前不支持直接创建和编辑本地文件(如 ChatGPT Agent 和 Claude)(PowerPoint 或电子表格创建)的功能。

该模型专门设计用于与 Web 和移动应用 UI 交互,输出以文本或 UI作日志的形式返回。

技术方面:像人一样“看、动”UI

Gemini 2.5 计算机使用屏幕截图和作历史记录来推断下一步要执行的作(例如点击和输入)。 该过程由以下循环组成:

  1. 接收用户的任务指令
  2. 加载目标屏幕的屏幕截图和历史记录
  3. 建议适当的作(单击、键入、滚动等)
  4. 查看执行结果并确定下一步作

重复此作,使 AI 像人类一样完成屏幕上的作。 需要安全的作(例如购买)必须经过用户确认。 它使用专用工具“computer_use”进行作,可以集成到 Playwright 和 Browserbase 开发环境中。

Gemini 2.5 电脑使用性能评估

在谷歌的验证中,Gemini 2.5 Computer Use 在多项运营基准测试中得分很高。

测试名称 双子座 2.5 克劳德十四行诗 4 OpenAI 代理
在线-Mind2Web 65.7% 61.0% 44.3%
网络旅行者 79.9% 69.4% 61.0%
安卓世界 69.7% 62.1% 无法测量

您可以滚动

它不仅作准确,**而且延迟(响应速度)低,**非常适合 UI 自动化和测试应用。

企业使用进展:谷歌已在公司内部开始实际作

据谷歌称,内部和外部团队已经在实践中使用这种模型。

  • Google Payments 团队:自动重新运行大约 60% 的测试失败案例,从而减少工时。
  • **Autotab(外部公司):**对于复杂的数据分析任务,记录的准确率比其他模型高出 18%。
  • Poke.com:屏幕运行速度比竞争对手快50%左右。

谷歌自己也将这项技术纳入其“Project Mariner”、“Firebase Testing Agent”、“搜索中的 AI 模式”等。

安全设计:多层防护,防止AI“横行”

只要AI可以直接作软件,安全考虑就必不可少。 谷歌有一个纵深防御系统,可以:

  • 步安全审核:在执行前检查所有作
  • 开发者规则设置:特定作(购买、删除等)需要确认
  • 自动禁止行为:阻止未经授权的访问和违反条款的行为

例如,如果您遇到验证码屏幕,它旨在避免自动执行并要求用户验证。

费用结构:与 Pro 型号几乎相同水平

费用与 Gemini 2.5 Pro 基本相同,采用代币收费系统

  • 输入:每百万个代币 1.25 美元(少于 200,000 个代币)
  • 产出:每百万个代币 10-15 美元

但是,计算机使用模式仅收费,没有免费套餐。 目前不支持专业版提供的“上下文缓存”和“谷歌搜索集成”等可选功能。

此外,付费版中的使用数据不用于谷歌学习(部分用于免费专业版的学习)。

总结:迈向被AI“纵”的未来

Gemini 2.5 计算机使用将生成式 AI 的角色从“写作”扩展到“移动”。
它实现了类似于人类屏幕作的自主作,这是传统的API联动和脚本控制难以实现的。 这对于实现企业系统自动化和提高运营效率具有重要意义。 未来,执行从登录、搜索、输入、审批等一系列任务的“执行AI代理”,自然会融入到日常作中。