谷歌“Gemini 2.5电脑用”上线:进入AI纵网络的时代 --知识铺
Gemini 2.5 Pro 电脑使用概述:可以“纵”网络的 AI 智能体
Gemini 2.5 Computer Use 建立在 Google 之前的 Gemini 2.5 Pro 型号之上,并增加了虚拟作网络浏览器的功能。 例如,如果您告诉他们“在此网站上创建一个新帐户”或“在亚马逊上寻找评价很高的太阳能灯”,人工智能实际上会打开浏览器并在单击和打字时执行其目的。
谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 在 X(前身为 Twitter)上表示:
“虽然这仍处于早期阶段,但人工智能滚动、填写表格和下拉作的能力是迈向通用人工智能代理的重要一步。”
该模型不直接提供给普通用户,但可以在名为 Browserbase 的初创公司的环境中用于演示,Browserbase 是 Google 之间的合作伙伴关系。 Browserbase 提供了一个专用的 AI 专用“无头浏览器”,可以与 Gemini 之外的 OpenAI 和 Anthropic 的模型进行比较。
点击、输入和滚动也是自动的
在测试中,Gemini 2.5 Computer Use 按照 Taylor Swift 官网的说明,返回了顶部可用的限量版专辑信息摘要。 此外,在亚马逊上搜索产品的测试中,已证实它在几秒钟内突破了验证码(选择摩托车的图像)进行人类判断。
然而,并非所有作都是完美的,一些复杂的任务可能会中途停止。 此外,目前不支持直接创建和编辑本地文件(如 ChatGPT Agent 和 Claude)(PowerPoint 或电子表格创建)的功能。
该模型专门设计用于与 Web 和移动应用 UI 交互,输出以文本或 UI作日志的形式返回。
技术方面:像人一样“看、动”UI
Gemini 2.5 计算机使用屏幕截图和作历史记录来推断下一步要执行的作(例如点击和输入)。 该过程由以下循环组成:
- 接收用户的任务指令
- 加载目标屏幕的屏幕截图和历史记录
- 建议适当的作(单击、键入、滚动等)
- 查看执行结果并确定下一步作
重复此作,使 AI 像人类一样完成屏幕上的作。 需要安全的作(例如购买)必须经过用户确认。 它使用专用工具“computer_use”进行作,可以集成到 Playwright 和 Browserbase 开发环境中。
Gemini 2.5 电脑使用性能评估
在谷歌的验证中,Gemini 2.5 Computer Use 在多项运营基准测试中得分很高。
| 测试名称 | 双子座 2.5 | 克劳德十四行诗 4 | OpenAI 代理 |
|---|---|---|---|
| 在线-Mind2Web | 65.7% | 61.0% | 44.3% |
| 网络旅行者 | 79.9% | 69.4% | 61.0% |
| 安卓世界 | 69.7% | 62.1% | 无法测量 |
您可以滚动
它不仅作准确,**而且延迟(响应速度)低,**非常适合 UI 自动化和测试应用。
企业使用进展:谷歌已在公司内部开始实际作
据谷歌称,内部和外部团队已经在实践中使用这种模型。
- Google Payments 团队:自动重新运行大约 60% 的测试失败案例,从而减少工时。
- **Autotab(外部公司):**对于复杂的数据分析任务,记录的准确率比其他模型高出 18%。
- Poke.com:屏幕运行速度比竞争对手快50%左右。
谷歌自己也将这项技术纳入其“Project Mariner”、“Firebase Testing Agent”、“搜索中的 AI 模式”等。
安全设计:多层防护,防止AI“横行”
只要AI可以直接作软件,安全考虑就必不可少。 谷歌有一个纵深防御系统,可以:
- 分步安全审核:在执行前检查所有作
- 开发者规则设置:特定作(购买、删除等)需要确认
- 自动禁止行为:阻止未经授权的访问和违反条款的行为
例如,如果您遇到验证码屏幕,它旨在避免自动执行并要求用户验证。
费用结构:与 Pro 型号几乎相同水平
费用与 Gemini 2.5 Pro 基本相同,采用代币收费系统。
- 输入:每百万个代币 1.25 美元(少于 200,000 个代币)
- 产出:每百万个代币 10-15 美元
但是,计算机使用模式仅收费,没有免费套餐。 目前不支持专业版提供的“上下文缓存”和“谷歌搜索集成”等可选功能。
此外,付费版中的使用数据不用于谷歌学习(部分用于免费专业版的学习)。
总结:迈向被AI“纵”的未来
Gemini 2.5 计算机使用将生成式 AI 的角色从“写作”扩展到“移动”。
它实现了类似于人类屏幕作的自主作,这是传统的API联动和脚本控制难以实现的。 这对于实现企业系统自动化和提高运营效率具有重要意义。 未来,执行从登录、搜索、输入、审批等一系列任务的“执行AI代理”,自然会融入到日常作中。
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai001/post/20251009/%E8%B0%B7%E6%AD%8CGemini-2.5%E7%94%B5%E8%84%91%E7%94%A8%E4%B8%8A%E7%BA%BF%E8%BF%9B%E5%85%A5AI%E7%BA%B5%E7%BD%91%E7%BB%9C%E7%9A%84%E6%97%B6%E4%BB%A3/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com