打造智能代理新工具

我们正在改进我们的平台,帮助开发人员和企业建立实用而可靠的代理程式。

今日,我们推出首套建构模块,协助开发人员和企业建立实用而可靠的代理程式。我们将代理程式视为可代表使用者独立完成不同任务的系统。在过去一年,我们推出了多种全新模型能力,例如进阶推理、多模态互动以及全新安全技术,为模型奠定更强的基础,以应付建立代理程式所需的多步骤复杂任务。但客户曾表示要将这些能力转化为适合发布的代理程式也极具挑战性,通常需要广泛的提示叠代和自订编排逻辑,但往往缺乏足够的可见度或内置支援。

有见及此,我们推出了一套特别设计的全新API 和工具,用以简化代理应用程式的开发过程:

这些全新工具有助简化核心代理程式的逻辑、编排和互动,让开发人员更轻松地开始建立代理程式。在未来数星期以至数月,我们计划推出更多工具和功能,进一步简化和加速在平台上建立代理应用程式流程。

回覆API 简介

回覆API 是我们的全新API 基本类型,能利用OpenAI 的内置工具来建立代理程式。这个API 结合聊天完成的简易特性,以及助理API 的工具使用能力。随着模型功能持续演进,我们相信回覆API 可为开发人员提供更具弹性的基础,加快建立代理应用程式的工作。只需进行单次回覆API 呼叫,开发人员就能利用多种工具和模型工作来解决更复杂的任务。

回覆API 将支援网页搜寻、档案搜寻和电脑使用等全新内置工具。这些工具能互相配合,将模型连结至真实世界,因此在完成任务时表现更加出色。回覆API 同时带来数项使用性改善,包括统一项目性设计、更简单的多态性、直觉化串流事件,以及response.output_text等SDK 协助工具,方便存取模型文字输出。

回覆API 特别为想在应用程式中轻松结合OpenAPI 模型和内置工具的开发人员而设,从而省却整合多个API 或外部供应商等复杂流程。这个API 同时让开发人员可以在OpenAI 上储存数据,随时利用追踪及评估等功能来评估代理程式表现。在此重申,系统预设不会使用商业数据来训练模型,即使是储存在OpenAI 上的数据亦然。这个API 由今天起开始向所有开发人员提供,而且不另收费。词元与其他工具则按收费页面⁠(在新视窗中开启)的标准费率收费。查看回覆API快速开始指南⁠(在新视窗中开启)了解详情。

对现有API 的影响

  • 聊天完成API ⁠(在新视窗中开启):聊天完成仍然是我们最广受外界采用的API,我们会继续推出更多新模型和功能,全力支援聊天完成API。如果开发人员无需使用内置工具,则可继续采用聊天完成API。我们会继续为聊天完成发布新模型,而其功能无需依赖内置工具或多模型呼叫。但回覆API 将会是聊天完成的扩展集⁠(在新视窗中开启),并提供同样出色的效能,因此我们建议新的整合应该选用回覆API。
  • 助理API ⁠(在新视窗中开启):我们参考了开发人员对助理API 测试版的意见,在回覆API 中整合了多项主要改善,令API 更灵活快捷,同时更简单易用。我们会继续发展助理API 与回覆API,以达至全面同等的功能,包括支援助理类和对话串类物件,以及程式码解释器工具。在完成功能提升后,我们计划正式淘汰助理API,现时的目标停用时间为2026 年中。在淘汰此API 时,我们会就从助理API 过渡至回覆API 提供清晰的迁移指引,让开发人员可以保存所有数据,并轻松迁移应用程式。在正式宣布淘汰前,我们会继续为助理API 提供新的模型。回覆API 将成为在OpenAI 上建立代理程式的未来方向。

回覆API 中的内置工具简介

网页搜寻

开发人员现可获得更快更及时的搜寻结果,同时包含清晰而相关的网络引文。在回覆API 中,开发人员可以在使用gpt-4o 及gpt-4o-mini 时使用网页搜寻工具,而此工具更可配合其他工具或功能呼叫使用。

在早期测试期间,我们见到开发人员将网页搜寻应用于多种不同用例,当中包括购物助理、研究代理和旅游预订代理等,这些应用程式都需要从网络搜集及时的新资讯。

例如,Hebbia ⁠(在新视窗中开启)利用网页搜寻工具,协助资产管理人、私募股权与信贷公司和律师行快速地从大量公开和私人数据组中提取可用作行动决策的分析资料。透过在研究工作流程中整合实时搜寻功能,Hebbia 就能提供更丰富、更符合具体情境的市场情报,并持续提升分析的准确性和相关性,全面突破现有的表现基准。

API 中的网页搜寻功能由用ChatGPT 搜寻所用的相同模型带动。根据SimpleQA(用以评估大语言模式(LLM) 在回答简短事实问题时的准确性)的基准评估,GPT‑4o 搜寻预览和GPT‑4o mini 搜寻预览分别获得90% 和88% 的评分。

利用API 中网页搜寻功能生成的回覆现在包含指向新闻文章和网志贴文等来源的连结,让用户可以了解更多资讯。透过清晰的内嵌引文,用户就能以崭新方式了解资讯,同时内容拥有者也有新的机会接触更广泛的受众。

任何网站或出版商都可以选择出现⁠(在新视窗中开启)在API 的网页搜寻中。

全新网页搜寻工具在回覆API 预览中向所有开发人员提供。我们同时让开发人员透过gpt-4o-search-previewgpt-4o-mini-search-preview,直接取用聊天完成API 中经过微调的搜寻模型。 GPT‑4o 搜寻和4o-mini 搜寻的收费⁠(在新视窗中开启)分别由每千次查询$30 及$25 起。请在Playground ⁠(在新视窗中开启)中试用网页搜寻,并在说明文件⁠(在新视窗中开启)中了解更多资讯。

档案搜寻

开发人员现可利用强化的档案搜寻工具,轻松从大量文件中提取相关资料。档案搜寻支援多种档案类型、查询优化、元数据筛选和自订重新排序,提供更快更准确的搜寻结果。同样地,透过采用回覆API,只需数行程式码,就能完全整合此工具。

档案搜寻工具可应用于多种实际用例,包括方便客户支援人员更易查看常见问题、协助法务助理为合资格法律专业人员快速找到过往案例,又或协助编码代理查询技术文件。例如,Navan ⁠(在新视窗中开启)在AI 旅游代理中应用档案搜寻功能,为用户快速提供来自知识库文章(例如公司旅游政策)的精简答案。他们亦利用内置查询优化和重新排序功能,无需额外微调或配置就能制定出强大的RAG(检索增强生成)流程。 Navan 为每个用户组设定专用的向量储存,根据个别帐户设定和用户角色度身订造合适答案,不但能为客户和公司员工节省时间,同时亦有助提供更准确的个人化支援。

此工具在回覆API 中向所有开发人员提供。使用收费⁠(在新视窗中开启)为每千次查询$2.5,档案储存收费为每天每GB $0.10,首GB 免费。此工具会继续在助理API 中提供。最后,我们亦同时为向量储存API 物件新增了搜寻端点,让用户可在其他应用程式和API 直接查询数据。请参阅我们的说明文件⁠(在新视窗中开启)了解更多资讯,并在Playground ⁠(在新视窗中开启)中开始试用。

电脑使用

开发人员可以利用电脑使用工具来自动化浏览器工作流程,例如在网页应用程式中进行品质验证,又或者在不同旧有系统中执行数据输入任务。例如,Unify ⁠(在新视窗中开启)是一套用以增加收益的操作系统,当中采用代理程式以识别意图、研究帐户并与买家互动。利用OpenAI 的电脑使用工具,Unify 的代理程式就能存取以往无法透过API 取得的资料,例如让物业管理公司可以透过网上地图查证公司扩展房地产版图的情况。这些资料可以作为触发个人化外展工作的自订讯号,前线市场团队在接触买家时就能掌握更准确的资料,而且工作效率更高。

另一方面,Luminai ⁠(在新视窗中开启)整合电脑使用工具至,将大型企业的复杂营运工作流程自动化。这些企业所采用的旧有系统往往无法使用API,同时缺乏标准化数据。 Luminai 近期透过一家大规模社区服务机构进行了初步测试,在数天之间即可将申请处理和用户登记程序自动化。以往透过传统机器人流程自动化(RPA) 来处理这些工作,往往需时数个月也未必能完成。

在去年推出Operator 中的CUA 前,我们进行了广泛的安全性测试和红队测试,以回应三大风险范畴:滥用、模型错误和前线风险。为了应对透过API 的CUA 将Operator 功能扩展至本机作业系统所带来的风险,我们特别进行了额外安全性评估和红队测试。我们亦为开发人员提供了新的缓解措施,包括利用安全性检查防范提示注入,在敏感任务中新增确认提示、协助开发人员隔离环境的工具,以及加强侦测潜在违规情况。虽然这些缓解措施有助减低风险,但模型仍然可能会出现无意的错误,特别是在非浏览器环境中使用时。例如,目前CUA 在OSWorld(一套利用真实任务测量AI 代理程式表现的基准)的表现为38.1%,表示模型在自动化操作系统任务上尚未达至高度可靠。我们建议这些情境需有真人监察。更多有关API 安全性工作的详情,请参阅已更新的系统卡

代理程式SDK

除了建设代理程式的核心逻辑,同时让代理程式可以取用各种工具以提升效能外,开发人员也需要编排代理工作流程。我们的全新开源代理程式SDK 简化了编排多重代理工作流程的工作,效能比Swarm ⁠(在新视窗中开启)有显著提升。 Swarm 是我们在去年推出的实验性SDK,现已广为开发人员社群所采用,而多位客户也利用此SDK 成功部署。

效能改善包括:

  • 代理程式:容易自订配置的大语言模式(LLM),提供清晰指示和内置工具。
  • 交接:在不同代理程式之间智能转移控制权。
  • 防护机制:可自订配置的安全性检查,方便进行输入与输出验证。
  • 追踪及可观测性:以视觉化方式呈现代理程式执行追踪,方便侦错和优化表现。

代理程式SDK 适用于多种不同实际应用,包括客户支援自动化、多步骤研究、内容生成、程式码审查和销量预测。例如,Coinbase ⁠(在新视窗中开启)利用代理程式SDK 快速制作AgentKit 原型并进行部署。这个工具套组让AI 代理程式可与加密货币钱包及不同的链上活动无缝互动。 Coinvbase 只花了数小时便将开发人员平台SDK 的自订操作整合至完全可用的代理程式。 AgentKit 的简单架构简化了新增代理程式操作的程序,让开发人员可以更专注于有意义的整合操作,而非花时间处理复杂的代理程式设定。 

Box ⁠(在新视窗中开启)只花了数天的时间,就快速建立包含网页搜寻与代理程式SDK 的代理程式,令企业可以从储存在Box 和公众互联网来源的非结构性资料中搜寻、查询和提汲分析资料。这种方法不但让客户可存取最新资讯,同时也可以安全的方式搜寻内部专有数据,并完全遵从内部许可与安全政策。例如,理财服务公司可以建立自订的代理程式,利用Box AI 代理程式来整合储存在Box 中的内部市场分析资料与互联网上的实时新闻和财经数据,令分析更加完整详尽,从而作出更明智的投资决策。

代理程式SDK 可与回覆API 及聊更完成API 配合使用。这个SDK 同时可配合其他供应商的模型运作(该模型必须能提供聊天完成式的API 端点)。开发人现可即时将此SDK 整合至Python 程式码库,而Node.js 支援亦即将推出。请参阅我们的说明文件⁠(在新视窗中开启)以了解更多资讯。

在设计代理程式SDK 时,我们的团队参考了社群中不少精彩的示例,当中包括Pydantic ⁠(在新视窗中开启)Griffe ⁠(在新视窗中开启)MkDocs ⁠(在新视窗中开启)。我们致力继续以开源架构制作代理程式SDK,以便其他社群成员可于这基础上继续发展。

下一步:建立代理程式平台

我们深信,代理程式即将成为劳动力的重要一环,并会大幅提升不同行业的生产力。随着不同公司陆续利用AI 处理复杂任务,我们致力提供更实用的建构模块,让开发人员和企业可以更高效地建立自动化系统,带动实际影响。

我们在今天的产品发布中推出了首套建构模块,让开发人员和企业可以更轻松地建立、部署和扩展可靠和高效能的AI 代理程式。随着模型功能倾向代理化,我们会持续发展不同API 之间的更深层整合并开发全新工具,以促进部署、评估和优化代理程式。我们的目标是为开发人员提供无缝的代理程式构建平台体验,支援不同行业的多种任务。我们期待看到开发人员构建的成果。要开始使用,请浏览我们的说明文件⁠(在新视窗中开启)⁠并请密切关注更多更新。