谷歌“Gemini 2.5电脑用”上线：进入AI纵网络的时代 --知识铺

Gemini 2.5 Pro 电脑使用概述：可以“纵”网络的 AI 智能体

Gemini 2.5 Computer Use 建立在 Google 之前的 Gemini 2.5 Pro 型号之上，并增加了虚拟作网络浏览器的功能。例如，如果您告诉他们“在此网站上创建一个新帐户”或“在亚马逊上寻找评价很高的太阳能灯”，人工智能实际上会打开浏览器并在单击和打字时执行其目的。

谷歌首席执行官桑达尔·皮查伊（Sundar Pichai）在 X（前身为 Twitter）上表示：

“虽然这仍处于早期阶段，但人工智能滚动、填写表格和下拉作的能力是迈向通用人工智能代理的重要一步。”

该模型不直接提供给普通用户，但可以在名为 Browserbase 的初创公司的环境中用于演示，Browserbase 是 Google 之间的合作伙伴关系。 Browserbase 提供了一个专用的 AI 专用“无头浏览器”，可以与 Gemini 之外的 OpenAI 和 Anthropic 的模型进行比较。

点击、输入和滚动也是自动的

在测试中，Gemini 2.5 Computer Use 按照 Taylor Swift 官网的说明，返回了顶部可用的限量版专辑信息摘要。此外，在亚马逊上搜索产品的测试中，已证实它在几秒钟内突破了验证码（选择摩托车的图像）进行人类判断。

然而，并非所有作都是完美的，一些复杂的任务可能会中途停止。此外，目前不支持直接创建和编辑本地文件（如 ChatGPT Agent 和 Claude）（PowerPoint 或电子表格创建）的功能。

该模型专门设计用于与 Web 和移动应用 UI 交互，输出以文本或 UI作日志的形式返回。

技术方面：像人一样“看、动”UI

Gemini 2.5 计算机使用屏幕截图和作历史记录来推断下一步要执行的作（例如点击和输入）。该过程由以下循环组成：

接收用户的任务指令
加载目标屏幕的屏幕截图和历史记录
建议适当的作（单击、键入、滚动等）
查看执行结果并确定下一步作

重复此作，使 AI 像人类一样完成屏幕上的作。需要安全的作（例如购买）必须经过用户确认。它使用专用工具“computer_use”进行作，可以集成到 Playwright 和 Browserbase 开发环境中。

Gemini 2.5 电脑使用性能评估

在谷歌的验证中，Gemini 2.5 Computer Use 在多项运营基准测试中得分很高。

测试名称	双子座 2.5	克劳德十四行诗 4	OpenAI 代理
在线-Mind2Web	65.7%	61.0%	44.3%
网络旅行者	79.9%	69.4%	61.0%
安卓世界	69.7%	62.1%	无法测量

您可以滚动

它不仅作准确，**而且延迟（响应速度）低，**非常适合 UI 自动化和测试应用。

企业使用进展：谷歌已在公司内部开始实际作

据谷歌称，内部和外部团队已经在实践中使用这种模型。

Google Payments 团队：自动重新运行大约 60% 的测试失败案例，从而减少工时。
**Autotab（外部公司）：**对于复杂的数据分析任务，记录的准确率比其他模型高出 18%。
Poke.com：屏幕运行速度比竞争对手快50%左右。

谷歌自己也将这项技术纳入其“Project Mariner”、“Firebase Testing Agent”、“搜索中的 AI 模式”等。

安全设计：多层防护，防止AI“横行”

只要AI可以直接作软件，安全考虑就必不可少。谷歌有一个纵深防御系统，可以：

分步安全审核：在执行前检查所有作
开发者规则设置：特定作（购买、删除等）需要确认
自动禁止行为：阻止未经授权的访问和违反条款的行为

例如，如果您遇到验证码屏幕，它旨在避免自动执行并要求用户验证。

费用结构：与 Pro 型号几乎相同水平

费用与 Gemini 2.5 Pro 基本相同，采用代币收费系统。

输入：每百万个代币 1.25 美元（少于 200,000 个代币）
产出：每百万个代币 10-15 美元

但是，计算机使用模式仅收费，没有免费套餐。目前不支持专业版提供的“上下文缓存”和“谷歌搜索集成”等可选功能。

此外，付费版中的使用数据不用于谷歌学习（部分用于免费专业版的学习）。

总结：迈向被AI“纵”的未来

Gemini 2.5 计算机使用将生成式 AI 的角色从“写作”扩展到“移动”。
它实现了类似于人类屏幕作的自主作，这是传统的API联动和脚本控制难以实现的。这对于实现企业系统自动化和提高运营效率具有重要意义。未来，执行从登录、搜索、输入、审批等一系列任务的“执行AI代理”，自然会融入到日常作中。

文章目录

谷歌“Gemini 2.5电脑用”上线：进入AI纵网络的时代 --知识铺

Gemini 2.5 Pro 电脑使用概述：可以“纵”网络的 AI 智能体

点击、输入和滚动也是自动的

技术方面：像人一样“看、动”UI

Gemini 2.5 电脑使用性能评估

企业使用进展：谷歌已在公司内部开始实际作

安全设计：多层防护，防止AI“横行”

费用结构：与 Pro 型号几乎相同水平

总结：迈向被AI“纵”的未来

See Also

最近文章

福利派送

分类

标签

友情链接

其它