论文:LLM Agent Operating System(https://arxiv.org/pdf/2403.16971.pdf)

结论:

  1. AIOS大模型智能体操作系统,旨在解决集成和部署基于LLM的智能体时遇到的挑战。这些挑战包括在LLM上对智能体请求的调度和资源分配、在智能体与LLM之间保持上下文的困难,以及集成具有不同能力和专业化的异构智能体的复杂性。随着智能体数量和复杂性的迅速增长,这些问题变得更加严重,常常导致资源利用的瓶颈;

  2. AIOS设计了旨在优化资源分配、促进智能体间的上下文切换、支持智能体的并发执行、为智能体提供工具服务以及维护智能体的访问控制的操作系统架构;

  3. 通过在AIOS上并发执行多个智能体的实验,展示了AIOS模块的可靠性和效率。开源项目位于https://github.com/agiresearch/AIOS;

  4. AIOS的架构通过模块化和抽象,简化了系统交互,并通过提供LLM系统调用接口和AIOS SDK,为智能体开发者提供了便利;

  5. AIOS的提出是为了解决LLM智能体在实际应用中遇到的调度、上下文管理、资源分配和访问控制等问题;

  6. 作者们对AIOS的未来工作提出了展望,包括开发更先进的调度算法、提高上下文管理的效率、优化内存和存储架构、增强系统的安全性和隐私保护等;

 抽象的

基于大型语言模型(LLM)的智能代理的集成和部署充满了挑战,影响了其效率和功效。这些问题包括 LLM 上代理请求的次优调度和资源分配、代理与 LLM 交互期间维护上下文的困难,以及集成异构代理固有的复杂性具有不同的能力和专业。代理数量和复杂性的快速增加进一步加剧了这些问题,通常会导致资源瓶颈和次优利用。

受这些挑战的启发,本文提出了 AIOS,一种LLM代理操作系统,它将大型语言模型嵌入到操作系统(OS)中。具体来说,AIOS旨在优化资源分配,促进跨代理的上下文切换,实现代理的并发执行,为代理提供工具服务,并维护代理的访问控制。

我们提出了这样一个操作系统的架构,概述了它旨在解决的核心挑战,并提供了 AIOS 的基本设计和实现。

我们对多个代理并发执行的实验证明了我们的 AIOS 模块的可靠性和效率。

通过这一点,我们的目标不仅是提高LLM代理的性能和效率,而且还为未来更好地开发和部署AIOS生态系统奠定了基础。该项目是开源的 https://github.com/agiresearch/AIOS

 1 简介

在自主代理领域,研究工作 [1,2,3] 旨在开发无需或最少人为干预即可独立运行、做出决策和执行任务的系统。这些代理旨在理解指令、处理信息、做出决策并采取行动以实现自主状态。大语言模型(LLMs)[4,5,6]的出现给代理开发带来了新的可能性[7]。

当前的 LLMs 在理解指令 [8, 9, 10, 11]、推理和解决问题 [12, 13, 14, 15, 16] 以及与人类用户交互 [17] 方面表现出了强大的能力以及外部环境 [18, 19]。

基于这些强大的LLMs,基于LLM的紧急代理[7,20,21,22]可以在从虚拟助手到更复杂的系统的各种环境中表现出强大的任务履行能力涉及复杂且创造性的问题解决、计划和推理。

图 1 展示了基于 LLM 的代理如何解决实际任务的一个令人信服的示例。根据用户的旅行组织请求,旅行社将任务分解为可执行步骤。

然后,它会根据用户的偏好按顺序执行预订航班、预订酒店、处理付款和更新日历的步骤。在计划执行过程中,智能体表现出推理和决策能力,这与传统软件不同

图片

图 1:一个激励示例,说明代理(即旅行社)如何需要 LLM 级别和操作系统级别的资源和功能来完成任务。

仅限于一组预定义的功能或工作流程的应用程序。

为了实现这种旅行场景,代理需要与 LLM 服务(例如,检索和了解用户偏好、决定调用哪个工具 API、生成评论和响应)和传统操作系统 (OS) 服务进行交互(例如,访问磁盘驱动器和执行软件)。

随着代理数量和复杂性的指数级增长,LLM和操作系统的功能压力也越来越大。例如,在有限的LLM资源中调度代理请求并确定其优先级构成了重大挑战。

此外,在处理冗长的上下文时,LLM的生成过程可能会变得非常耗时,有时会导致生成被调度程序挂起。

这就提出了设计一种机制来快照 LLM 当前生成结果的问题,从而即使在 LLM 尚未完成当前请求的响应生成时也启用暂停/恢复行为。

此外,一旦代理获得了可用调用工具的列表,确定调用这些工具的最佳顺序又提出了另一个挑战,因为多个代理可能需要调用相同的工具。

此外,多个代理的并发操作需要一个强大的系统来跨不同代理进行内存管理,同时还要确保严格执行隐私和访问控制措施。

为了解决上述挑战,我们提出了 AIOS,一个 LLM 代理操作系统

(图 2)提供 LLM 和操作系统功能的模块隔离和聚合。为了解决与LLM相关的任务和与LLM无关的任务之间出现的潜在冲突,我们建议设计一个LLM特定的内核。

该内核隔离了类似操作系统的职责,特别是与LLM代理、其相应资源和开发工具包的监督相关的职责。通过这种隔离,LLM内核旨在增强对LLM相关活动的管理和协调。

在提议的 LLM 内核中,我们设计了一套模块,每个模块专用于处理与 LLM 操作相关的不同功能。

下面概述了这些模块及其各自的功能,并在第 4 节中详细讨论了它们的底层机制。

代理调度程序:对代理请求进行优先级排序并进行调度,以优化LLM利用率。

Context Manager:支持LLM中中间生成状态的快照和恢复以及LLM的上下文窗口管理。

内存管理器:为每个代理的交互日志提供短期内存。

存储管理器:将代理交互日志保留到长期存储以供将来检索。

工具管理器:管理代理对外部API工具(例如搜索、科学计算)的调用。

访问管理器:在代理之间强制执行隐私和访问控制策略。

除了模块之外,内核还公开了一个LLM系统调用接口,代理可以通过该接口透明地利用这些服务。

此外,我们设计了AIOS SDK,对LLM系统调用进行了进一步封装,为代理开发者提供了更方便的代理库函数。

借助 AIOS 架构,像旅行计划者这样的代理可以将其任务分解为多个步骤,这些步骤流畅地结合LLM推理(例如,计划生成和工具调用决策)和操作系统级操作(例如,访问存储和执行软件服务)。

这种能力的协同组合使多个LLM代理能够处理日益复杂的多模式任务,这些任务需要推理、执行以及与物理世界的交互。

展望未来,我们设想扩展 AIOS 以支持更紧密的代理世界集成(例如,通过机器人控制)、更智能的资源管理和更安全的多代理协作。

最终,AIOS 作为促进各种复杂LLM代理的开发、部署和使用的关键平台。

 2 相关工作

2.1 操作系统的演变

操作系统 (OS) 的发展以渐进的方式展开,从基本的系统发展到当今复杂且交互式的操作系统。

最初,操作系统用于弥合用户级任务和计算机硬件的二进制功能(例如电子和门操作)之间的差距。

它们的演变见证了从简单的批处理作业处理 [23] 到更先进的流程管理技术(如分时 [24] 和多任务处理 [25, 26])的转变,这有助于处理日益复杂的任务。

操作系统内的进展朝着模块化的方向发展,划定了特定的职责,例如进程调度 [27, 28]、内存管理 [29, 30] 和文件系统管理 [31, 32],从而提高了效率和可管理性。

图形用户界面 (GUI) 的进一步出现,例如 Macintosh([1])、Windows([2]) 和 GNOME([3]),使操作系统更具交互性和以用户为中心。

同时,操作系统生态系统也不断扩展,提供了一整套开发工具(OS SDK)和运行时库。这些工具使应用程序开发人员能够在操作系统环境中有效地设计、实现和运行他们的应用程序[33]。

操作系统生态系统的著名示例包括 Android Studio([4])、XCode([5])() 和 Cloud SDK([6])。

在这些生态系统中,操作系统提供了大量资源来促进软件开发,并作为部署和托管软件应用程序的平台,从而形成了蓬勃发展的操作系统应用程序生态系统。

如今,我们正站在变革的阶段,看到了智能操作系统的潜力。随着大型语言模型(LLMs)的结合,这些先进的系统有望进一步缩小人与机器之间的沟通差距,开创人机交互的新时代。

2.2 大型语言模型代理

基于大型语言模型(LLM)的自主代理将自然语言指令作为复杂任务解决的输入。基于LLM的智能体的研究一般可以分为单智能体系统和多智能体系统[33]。

基于LLM的单代理系统。基于LLM的单代理系统(SAS)使用单个LLM代理来解决复杂的任务,例如旅行规划、个性化推荐和艺术设计[7]。

代理将用户的自然语言指令作为输入,并将任务分解为任务解决的多步骤计划,其中每个步骤都可以调用外部工具来完成,例如收集信息、执行专门模型或与外部世界交互。

单代理应用程序可以与数字环境或物理环境或两者结合,具体取决于要解决的任务。例如,虚拟或数字环境中的代理可以调用 API [7, 34, 35, 36, 37],浏览网站 [38, 22],或执行代码 [39],而物理环境中的代理可以操纵对象 [19] , 40, 41],进行实验室实验 [42, 43],或做出可行的决策 [44, 45]。

基于LLM的多代理系统。基于LLM的多代理系统(MAS)利用多个代理之间的交互来解决问题。多个主体之间的关系可以是合作关系、竞争关系、或者是合作与竞争的混合关系[33]。在协作多智能体系统中,每个智能体获取并评估其他智能体提供的信息,从而共同解决复杂的任务,例如角色扮演[46]、社交模拟[47]和软件开发[48、49、50、 51]。在竞争性多智能体系统中,智能体可以在博弈环境中相互辩论、协商和竞争以实现其目标,例如提高谈判技巧[52]和辩论正确答案[53,54,55]。

一些多智能体系统可能会表现出智能体之间的合作和竞争。例如,WarAgent [56]将每个国家建模为基于LLM的代理,以研究国家之间的互动如何导致国际化

图片

图 2:AIOS 架构概述。

冲突中,各国可以相互合作,例如建立联盟和签订和平协议,也可以相互竞争,例如军备竞赛、动员和宣战。

 3 AIOS 层

如图 2 所示,我们的 AIOS 的体系结构分为三个不同的层:应用程序层、内核层和硬件层。这种分层架构确保了整个系统的职责划分清晰。

每个较高层抽象其下层的复杂性,促进通过接口或特定模块的交互,从而增强模块化并简化不同层之间的系统交互。

应用层。在应用程序层,开发和部署代理应用程序,例如旅行社或数学代理。在这一层,AIOS提供了AIOS SDK,对系统调用进行了更高的抽象,简化了代理开发人员的开发过程。

该 SDK 通过提供丰富的工具包来开发代理应用程序,从而抽象出较低级别系统功能的复杂性。

这使得开发人员能够将注意力集中在代理的基本逻辑和功能上,从而促进更高效的开发过程。

内核层。内核层分为两个主要组件:操作系统内核和LLM内核,每个组件都满足非LLM和LLM特定操作的独特要求, 分别。

这种区别允许 LLM 内核专注于 LLM 特定任务,例如上下文管理和代理调度,这些任务对于处理 LLM 相关活动至关重要,而不是通常在标准操作系统内核功能的范围内。

我们的工作主要集中在增强 LLM 内核,而不对现有操作系统内核结构进行重大更改。

LLM内核配备了几个关键模块,包括LLM系统调用接口、代理调度器、上下文管理器、内存管理器、存储管理器、工具管理器和访问管理器。

这些组件旨在满足代理应用程序的不同执行需求,确保 AIOS 框架内的高效管理和执行。这些模块的具体细节将在第 4 节中进一步详细介绍。

硬件层。硬件层由系统的物理组件组成,包括CPU、GPU、内存、磁盘和外围设备。需要注意的是,LLM 内核的系统调用不能直接与硬件交互。

相反,这些调用与操作系统的系统调用交互,而操作系统的系统调用又管理硬件资源。

这种间接交互确保了抽象层和安全性,允许LLM内核利用硬件功能而无需直接硬件管理,从而保持系统的完整性和效率。

 4 AIOS的实现

在本节中,我们首先概述 LLM 内核中每个模块的基本设计和实现。随后,我们介绍LLM系统调用,其中包含每个模块的基本功能。

最后讨论了AIOS SDK的探索,旨在方便Agent开发者的开发过程。

4.1 代理调度程序

代理调度程序旨在以有效的方式管理代理请求。考虑图 3 中的各种代理(表示为 A、B 和 C),每个代理都有多个执行步骤。

在顺序执行范例中,代理任务按线性顺序处理,其中来自同一代理的步骤将首先被处理。这可能会导致序列中稍后排队的任务的等待时间增加。

图片

图 3:代理调度程序的图示。

代理调度程序采用先进先出 (FIFO)([7])、循环 (RR)([8]) 等策略,

和其他调度算法来优化这个过程。通过并发执行,调度程序显着平衡每个代理的等待时间和周转时间,因为来自不同代理的任务是交错并行执行的。

这种并发方法通过时间线进行可视化,其中来自不同代理的任务以交错的方式处理(例如,A1、B1、C1、B2、A2、A3、C2、C3),确保没有单个代理垄断处理资源,并且空闲时间被最小化。

除了实现传统的调度算法外,还可以结合考虑代理请求之间的依赖关系的更复杂的调度算法,这是未来可以考虑的。

4.2 上下文管理器

图片

图 4:上下文快照和恢复,其中我们使用波束搜索(波束宽度 = 1)作为示例搜索算法来说明此生成解码过程。

上下文管理器负责管理提供给LLM的上下文以及给定特定上下文的生成过程。它主要涉及两个关键功能:上下文快照和恢复以及上下文窗口管理。

上下文快照和恢复。考虑调度程序算法可能涉及时间量子操作(例如,循环)

AIOS 在上下文管理器中提供了快照和恢复机制来解决这个问题,从图 4 中可以看出。我们使用波束搜索过程([9]),这是<b1001 中的典型实践(仅在代理处于活动状态时存储) > [10,57,58],说明生成解码过程。

为了简单起见,Storage Manager 我们将波束宽度设置为 1。具体来说,将代理请求视为:确定航班 UA057 的目的地是否会下雨。

图片

当调度程序在中间步骤暂停此类生成过程时,上下文管理器使用快照功能来捕获并存储LLM束搜索树的当前状态,包括所有中间概率和路径正在探索生成响应。

恢复后,恢复函数用于从快照中重新加载保存的状态,从而允许 LLM 从暂停点继续其生成过程,以达到最终答案:搜索巴黎的天气。通过这种方式,上下文管理器可以确保暂时挂起一个代理的请求不会导致进度丢失,从而优化资源使用,而不会影响响应生成的质量和效率。

上下文窗口管理。为了解决超过上下文窗口限制 LLMs 的长上下文带来的挑战,上下文管理器还需要管理上下文窗口的潜在扩展。

具体来说,AIOS 中的上下文管理器支持基本的文本摘要,并结合其他扩展技术 [59, 60] 来管理上下文窗口。

通过这种方式,它可以帮助增强 LLM 处理和理解广泛上下文的能力,而不会损害信息的完整性或相关性。

4.3 内存管理器

如图 5 所示,内存管理器管理代理生命周期内的短期内存,确保仅在代理处于活动状态(等待执行或运行时)时存储和访问数据。

当前的AIOS支持独立存储每个Agent的内存,其他Agent无法直接访问每个Agent的内存,除非获得访问管理器的授权。

未来可以考虑将更复杂的内存机制(例如代理之间的共享内存池或分层缓存)集成到AIOS中。

与下面介绍的存储管理器相比,内存管理器可以实现快速的数据检索和处理,有助于快速响应用户的查询和交互,而不会给AIOS的存储带来过多的负担。

4.4 存储管理器

相比之下,存储管理器负责数据的长期保存,监督需要无限期保留的信息的存储,超出任何数据的有效寿命。

表 1:AIOS 中的托管工具。最后一列显示每个工具所需的输入和输出格式。

图片

单一代理人。 AIOS 中的永久存储是通过各种持久介质实现的,例如本地文件、数据库或基于云的解决方案,确保数据的完整性和可用性以供将来参考或分析。存储管理器支持检索增强[61]。通过存储用户偏好和维护历史交互日志,存储管理器可以丰富座席知识更新并增强长期用户体验。

4.5 工具管理器

AIOS系统中的工具管理器管理着各种API工具,这些工具增强了LLMs的功能。如表1所示,工具管理器集成了各种来源的常用工具[7,62,63],并将它们分为不同的类别,涵盖网络搜索、科学计算、数据库检索、图像处理等。 ,托管工具可以涵盖不同的输入和输出模式(图像和文本),从而促进AIOS生态系统内的代理开发。

表 2:LLM 系统调用的实例。

图片

4.6 访问管理器

访问管理器通过管理每个代理的专用权限组来协调不同代理之间的访问控制操作。被排除在代理权限组之外的其他代理将被拒绝访问其资源,例如交互历史记录。

为了进一步提高系统透明度,访问管理器编译并维护审核日志。

这些日志捕获有关访问请求、代理活动以及对访问控制参数的任何修改的详细信息,这有助于防范潜在的特权攻击 [64, 65]。

4.7       LLM 系统调用

LLM内核中的LLM系统调用接口旨在提供基本的LLM调用操作功能。该接口充当复杂代理请求和不同内核模块执行之间的桥梁。

如表2所示,与操作系统系统调用类似,LLM系统调用提供了一套跨越内核模块的基本功能,包括代理管理、上下文处理、内存和存储操作以及访问控制。

LLM系统调用列表将来可以进一步扩展以支持更多操作。

4.8 AIOS SDK

AIOS SDK 旨在为开发人员提供多功能工具包,用于在 AIOS 中制作复杂的代理应用程序。

该 SDK 包含广泛的功能,从初始化代理和管理代理生命周期到促进资源监控和代理任务生成计划等复杂操作。

与任何操作系统一样,丰富 SDK 使其变得全面且对开发人员友好是一项长期且永无止境的努力。

目前AIOS支持的SDK功能如表3所示,这些功能将不断更新和扩展,以满足不断发展的代理应用程序的需求。

这项开发工作旨在为开发人员提供他们所需的工具,以充分利用 AIOS 框架内代理应用程序的潜力。

表3:AIOS SDK中的SDK函数列表

图片

 5 评价

在本节中,我们评估 AIOS 中多个代理并行运行时 AIOS 模块的正确性和性能。

我们的调查以两个研究问题为指导:首先,在代理挂起并转换到另一个代理后,对代理请求的 LLM 响应是否一致;其次,AIOS 调度在改善等待平衡方面的性能如何以及相对于非计划(顺序)执行的周转时间。

 5.1 设置

我们的实验是在配备 8 个 NVIDIA RTX A5000 GPU 的 Ubuntu 22.04 机器上使用 Python 3.9、PyTorch 2.0.1 和 CUDA 11.8 进行的。我们采用公开的 LLMs (即 Gemma-2b-it 和 Gemma-7b-it [66]、LLaMA-2-13b-chat-hf [10])作为 AIOS 的骨干。

这种选择是由开源模型本地部署的优势驱动的,这有助于准确测量时间延迟。为了进行评估,我们配置了三个专门的代理:一个用于解决数学挑战的数学代理,一个用于生成新颖叙述的叙述代理,以及一个负责提供餐厅推荐的记录代理。每个代理被设计为在运行期间向主干网LLM发送2到3个请求。

5.2 实验结果

一致性分析。为了回答一致性问题,我们首先单独运行三个构建的代理以生成结果。随后,我们并行执行这些代理,捕获

表 4:并行运行多个代理时 LLM 生成的响应与逐一运行单个代理时 LLM 生成的响应的一致性进行比较。

图片

LLM-在每一步中骨干他们的输出。为了评估多个智能体并行运行和单个智能体一一运行下输出的一致性,我们利用 BLEU 得分 [67] 和 BERT 得分 [68] 作为评价指标。

两个指标的范围都是从 0.0 到 1.0,以单智能体环境中产生的输出作为参考标准,我们将温度参数设置为 0 以消除随机性的影响。

如表 4 所示,BLEU 和 BERT 分数均达到 1.0,表明多智能体和单智能体配置中生成的输出之间完美匹配。

这一结果证实了我们的设计在有效促进并发多代理操作方面的一致性。

性能分析。为了回答效率问题,我们对采用 FIFO 调度的 AIOS 和非调度方法(其中上述三个代理同时运行)进行了比较分析。

在非调度设置中,三个代理按照预定义的顺序执行:数学代理、叙述代理和记录代理。

我们采用两个指标来评估时间效率:等待时间(从代理请求提交到开始的间隔)和周转时间(从代理请求提交到完成的持续时间)。

由于每个代理都会向 LLM 发送多个请求,因此每个代理的等待时间和周转时间分别计算为其所有发送请求的等待时间和周转时间的平均值。

为了减轻随机性,我们在五个单独的试验中执行这三个代理(无论是否有计划)来报告结果。

如表 5 所示,非调度方法对于序列中较早的服务人员表现出良好的性能,但代价是序列中较晚的服务人员的等待时间和周转时间延长。

相反,AIOS 的调度机制可以有效地调节等待时间和周转时间,这一优势对于代理稍后提交的代理请求尤其明显,尤其是当 LLM 很大时。

这表明我们的调度对于适应多个代理的并行操作的重要性。

表 5:与非调度(顺序)执行相比,代理调度的有效性。

图片

 6。结论

本文提出了 AIOS 架构,展示了促进基于LLM的代理的开发和部署的潜力,培育了一个更有凝聚力、更有效和高效的 AIOS-Agent 生态系统。

本文提出的见解和方法为人工智能和系统研究中正在进行的讨论做出了贡献,为人工智能代理的不同领域带来的集成挑战提供了可行的解决方案。

未来的各种工作可以在此基础上构建,探索改进和扩展 AIOS 架构的创新方法,以满足开发和部署LLM代理不断变化的需求。

 7 未来的工作

从AIOS开始,未来的研究有很多方向可以追求。本节概述了扩展 AIOS 基本功能的潜在研究领域。

先进的调度算法。 AIOS的调度功能为开发更先进的算法奠定了基础。未来的研究可以集中于在代理请求之间执行依赖性分析的算法,优化计算资源的分配。

此外,一些工具资源是本地部署的模型,也可以纳入调度范式。

这包括工具状态和快照的管理,建议转向包含代理及其工具的统一调度框架。

上下文管理的效率。可以设计更有效的机制来协助上下文管理。例如,追求高效的上下文管理技术可以通过加快上下文快照和恢复的过程来显着增强用户体验。

此外,还可以在快照之前利用上下文压缩技术,这可以产生更节省空间的解决方案。

内存和存储架构的优化。在智能体协作和通信的背景下,未来内存和存储系统的设计可以采用共享的方式,实现智能体之间内存和存储的共享。

这种架构将使代理能够访问公共内存和存储池,从而提高代理的决策能力,因为一个代理可以从其他代理的内存或存储中受益。

此外,未来的工作可以探索分层存储解决方案,旨在优化数据检索和存储效率。

这可能涉及对频繁访问的数据优先考虑更快的访问和减少存储分配,反之亦然,对于不常访问的信息。

安全和隐私增强。 AIOS 的安全方面需要针对各种攻击采取防护措施,确保系统能够抵御恶意攻击,例如越狱LLM或未经授权访问其他代理的内存。

在隐私领域,探索先进的加密技术对于保护 AIOS 内的数据传输、从而维护代理通信的机密性至关重要。

此外,水印技术的实施可以通过在输出中嵌入唯一标识符来保护代理开发人员的知识产权,从而促进数据沿袭的追踪。

在 netshell 中,AIOS 是一个激励性的工作体系,带来了广泛的研究机会。每个概述的方向不仅可以建立在 AIOS 的基本要素之上,而且还可以为整个领域的进步做出贡献。

 致谢

我们感谢张健、王振廷和华文跃在项目过程中提出的宝贵讨论和建议。

 参考

迈克尔·伍尔德里奇和尼古拉斯·R·詹宁斯。智能代理:理论与实践。知识工程评论,10(2):115–152, 1995。

尼古拉斯·R·詹宁斯、卡蒂亚·西卡拉和迈克尔·伍德里奇。代理研究和开发的路线图。自主代理和多代理系统,1:7–38,1998。

保罗·布雷西亚尼、安娜·佩里尼、保罗·乔吉尼、福斯托·吉安奇利亚和约翰·麦洛普洛斯。 Tropos:一种面向代理的软件开发方法。自主代理和多代理系统,8:203–236,2004 年。

开放人工智能。 Gpt-4。 https://openai.com/research/gpt-4,2023。

Facebook。元。介绍 llama:一个具有 650 亿参数的基础大型语言模型。 https://ai.facebook.com/blog/largelanguage-model-llama-meta-ai,2022 年。

Gemini 团队、Rohan Anil、Sebastian Borgeaud、Yonghui Wu、Jean-Baptiste Alayrac、Jiahui Yu、Radu Soricut、Johan Schalkwyk、Andrew M Dai、Anja Hauth 等。 Gemini:一系列高性能的多式联运模型。 arXiv 预印本 arXiv:2312.11805, 2023。

葛英强、华文跃、梅凯、谭俊涛、徐淑媛、李泽龙和张永峰。 OpenAGI:当 LLM 遇到领域专家时。神经信息处理系统的进展,36,2023。

欧阳龙、吴杰弗里、徐江、迪奥戈·阿尔梅达、卡罗尔·温赖特、帕梅拉·米什金、张冲、桑迪尼·阿加瓦尔、卡塔琳娜·斯拉玛、亚历克斯·雷等。训练语言模型遵循人类反馈的指令。神经信息处理系统的进展,35:27730–27744,2022 年。

Hyung Won Chung、Le Hou、Shayne Longpre、Barret Zoph、Yi Tay、William Fedus、Yunxuan Li、Xuezhi Wang、Mostafa Dehghani、Siddhartha Brahma 等。扩展指令微调语言模型。 arXiv 预印本 arXiv:2210.11416, 2022。

Hugo Touvron、Louis Martin、Kevin Stone、Peter Albert、Amjad Almahairi、Yasmine Babaei、Nikolay Bashlykov、Soumya Batra、Prajjwal Bhargava、Shruti Bhosale 等。 Llama 2:开放基础和微调的聊天模型。 arXiv 预印本 arXiv:2307.09288, 2023。

耿世杰,刘树昌,付作辉,葛英强,张永峰。作为语言处理的推荐(rlp):统一的预训练、个性化提示和预测范例(p5)。第 16 届 ACM 推荐系统会议论文集,第 299-315 页,2022 年。

小岛武、顾世翔、马歇尔·里德、松尾裕和岩泽佑介。大型语言模型是零样本推理机。神经信息处理系统的进展,35:22199–22213,2022 年。

Erik Nijkamp、Bo Pang、Hiroaki Hayashi、Lifu Tu、Huan Wang、Yingbo Zhou、Silvio Savarese 和 Caiming Xiong。 Codegen:一种开放的大型语言模型,用于具有多轮程序合成的代码。 arXiv 预印本 arXiv:2203.13474, 2022。

罗斯·泰勒、马辛·卡达斯、吉列姆·库库鲁尔、托马斯·夏洛姆、安东尼·哈茨霍恩、埃尔维斯·萨拉维亚、安德鲁·保尔顿、维克托·科尔克兹和罗伯特·斯托伊尼克。卡拉狄加:大型科学语言模型。 arXiv 预印本 arXiv:2211.09085, 2022。

郝世波、谷一、马浩迪、洪之锋、王振、王黛西和胡志婷。用语言模型推理就是用世界模型规划。 2023 年自然语言处理经验方法会议论文集,第 8154-8173 页,2023 年。

金根宇、皮埃尔·巴尔迪和斯蒂芬·麦卡利尔。语言模型可以解决计算机任务。神经信息处理系统的进展,36,2023。

史蒂文·I·罗斯、费尔南多·马丁内斯、斯蒂芬妮·胡德、迈克尔·穆勒和贾斯汀·D·韦兹。程序员的助手:与软件开发的大型语言模型进行对话交互。第 28 届智能用户界面国际会议记录,第 491-514 页,2023 年。

Danny Driess、Fei Xia、Mehdi SM Sajjadi、Corey Lynch、Aakanksha Chowdhery、Brian Ichter、Ayzaan Wahid、Jonathan Tompson、Quan Vuong、Tianhe Yu 等。 Palm-e:一种具体化的多模式语言模型。第 40 届国际机器学习会议论文集,第 8469-8488 页,2023 年。

安东尼·布罗汉、叶夫根·切波塔尔、切尔西·芬恩、卡罗尔·豪斯曼、亚历山大·赫尔佐格、丹尼尔·何、朱利安·伊巴兹、亚历克斯·伊尔潘、埃里克·张、瑞安·朱利安等。尽我所能,而不是照我说的:在机器人可供性中奠定语言基础。机器人学习会议,第 287-318 页。 PMLR,2023。

姚舜宇、赵杰弗里、余殿、杜南、伊扎克·沙夫兰、卡蒂克·纳拉西姆汉和曹元。 ReAct:在语言模型中协同推理和行动。国际学习表征会议,2023 年。

诺亚·辛恩、费德里科·卡萨诺、阿什温·戈皮纳特、卡蒂克·纳拉辛汉和姚舜宇。

反射:具有言语强化学习的语言代理。神经信息处理系统的进展,36,2023。

邓翔、谷宇、郑博远、陈士杰、塞缪尔·史蒂文斯、王博士、孙焕和苏宇。 Mind2web:迈向网络多面手代理。神经信息处理系统的进展,36,2023。

华盛顿大学:CSE451。操作系统的历史,2023 年。https://courses.cs。

Washington.edu/courses/cse451/16wi/readings/lecture_readings/LCM_OperatingSystemsTimeline_Color_acd_newsize.pdf。

丹尼斯·M·里奇和肯·汤普森。 unix 分时系统。交流。 ACM,17(7):365–375,1974 年 7 月。

查尔斯·安东尼·理查德·霍尔。监视器:操作系统结构概念。 ACM 通讯,17(10):549–557, 1974。

Dawson R Engler、M Frans Kaashoek 和 James O’Toole Jr. Exokernel:用于应用程序级资源管理的操作系统架构。 ACM SIGOPS 操作系统评论,29(5):251–266,1995。

刘忠朗 (Chung Laung Liu) 和詹姆斯·W·莱兰 (James W Layland)。硬实时环境中多道程序设计的调度算法。 ACM 杂志 (JACM),20(1):46–61,1973 年。

埃兹格·W·迪杰斯特拉 (Edsger W Dijkstra)合作顺序流程。并发编程的起源:从信号量到远程过程调用,第 65-138 页。施普林格,2002。

彼得·J·丹宁.程序行为的工作集模型。 ACM 通讯,11(5):323–333, 1968。

罗伯特·C·戴利和杰克·B·丹尼斯。多计算机中的虚拟内存、进程和共享。 ACM 通讯,11(5):306–312, 1968。

孟德尔·罗森布鲁姆和约翰·K·奥斯特豪特。日志结构文件系统的设计与实现。 ACM 计算机系统汇刊 (TOCS),10(1):26–52,1992。

马歇尔·K·麦库西克、威廉·N·乔伊、塞缪尔·J·莱弗勒和罗伯特·S·法布里。 UNIX 的快速文件系统。 ACM 计算机系统汇刊 (TOCS),2(3):181–197,1984 年。

葛英强,任玉杰,华文跃,徐淑媛,谭俊涛,张永峰。 LLM 作为操作系统,代理作为应用程序:设想 AIOS、代理和 AIOS-代理生态系统。 arXiv:2312.03815,2023。

Timo Schick、Jane Dwivedi-Yu、Roberto Dessì、Roberta Raileanu、Maria Lomeli、Luke Zettlemoyer、Nicola Cancedda 和 Thomas Scialom。 Toolformer:语言模型可以自学使用工具。 arXiv 预印本 arXiv:2302.04761, 2023。

姚舜宇和卡蒂克·纳拉辛汉。数字世界中的语言代理:机遇与风险。 Princeton-nlp.github.io,2023 年 7 月。

亚伦·帕里西、姚照和诺亚·菲德尔。 Talm:工具增强语言模型。 arXiv 预印本 arXiv:2205.12255, 2022。

唐巧宇、邓自良、林宏宇、韩贤培、梁巧、孙乐。 Toolalpaca:具有 3000 个模拟案例的语言模型通用工具学习。 arXiv 预印本 arXiv:2306.05301, 2023。

中野礼一郎,雅各布·希尔顿,苏奇尔·巴拉吉,杰夫·吴,欧阳龙,克里斯蒂娜·金,克里斯托弗·黑塞,尚塔努·杰恩,维尼特·科萨拉朱,威廉·桑德斯,徐江,卡尔·科布,泰娜·埃朗杜,格雷琴·克鲁格,凯文·巴顿,马修·奈特,本杰明·切斯和约翰·舒尔曼。

Webgpt:带有人工反馈的浏览器辅助问答,2022 年。

张克池、李革、李佳、李卓、金志。 Toolcoder:教授代码生成模型通过搜索工具使用 API。 arXiv 预印本 arXiv:2305.04032, 2023。

Linxi Fan、Guanzhi Wang、Yunfan Jiang、Ajay Mandlekar、Yuncong Yang、Haoyi Zhu、Andrew Tang、De-An Huang、Yuke Zhu 和 Anima Anandkumar。 Minedojo:利用互联网规模的知识构建开放式的具体代理。神经信息处理系统的进展,35:18343–18362,2022。

王冠志、谢雨琪、蒋云帆、Ajay Mandlekar、肖超伟、朱雨克、范林西和阿尼玛·阿南德库玛。 Voyager:具有大型语言模型的开放式实体代理。在内在动机和开放式学习研讨会@ NeurIPS2023,2023 年。

丹尼尔·A·博伊科、罗伯特·麦克奈特和加布·戈麦斯。大语言模型涌现的自主科研能力。 arXiv 预印本 arXiv:2304.05332, 2023。

安德烈斯·M·布兰、萨姆·考克斯、安德鲁·D·怀特和菲利普·施瓦勒。 Chemcrow:使用化学工具增强大语言模型。 arXiv 预印本 arXiv:2304.05376, 2023。

黄文龙、彼得·阿贝尔、迪帕克·帕塔克和伊戈尔·莫达奇。作为零样本规划器的语言模型:为具体代理提取可操作的知识。国际机器学习会议,第 9118-9147 页。 PMLR,2022 年。

向建南、陶天华、谷一、舒天民、王子瑞、杨子超和胡志廷。语言模型符合世界模型:具体体验增强了语言模型。神经信息处理系统的进展,36,2023。

李国豪、哈桑·哈穆德、哈尼·伊塔尼、德米特里·希兹布林和伯纳德·加内姆。 Camel:大型语言模型社会“心灵”探索的交流代理。神经信息处理系统的进展,36,2023。

朴俊成 (Joon Sung Park)、约瑟夫·奥布莱恩 (Joseph O’Brien)、蔡俊 (Carrie Jun Cai)、梅雷迪思·林格尔·莫里斯 (Meredith Ringel Morris)、珀西·梁 (Percy Liang) 和迈克尔·S·伯恩斯坦 (Michael S Bernstein)。生成代理:人类行为的交互式拟像。第 36 届 ACM 用户界面软件和技术年度研讨会论文集,第 1-22 页,2023 年。

洪思瑞、诸葛名臣、陈乔纳森、郑夏武、程宇恒、王金林、张策耀、王自立、邱嘉诚、林子娟等。 Metagpt:多智能体协作框架的元编程。第十二届学习表征国际会议,2023 年。

陈茜、丛新、杨程、陈伟泽、苏玉生、徐聚元、刘志远和孙茂松。软件开发的通信代理。 arXiv 预印本 arXiv:2307.07924, 2023。

吴庆云、Gagan Bansal、张杰宇、吴怡然、张少坤、朱尔康、李北斌、姜丽、张晓云和王驰。 Autogen:通过多代理对话框架启用下一代 llm 应用程序。 arXiv 预印本 arXiv:2308.08155, 2023。

Martin Josifoski、Lars Klein、Maxime Peyrard、李一飞、耿赛博、Julian Paul Schnitzler、Yuxing Yao、魏继恒、Debjit Paul 和 Robert West。流程:推理和协作人工智能的构建块。 arXiv 预印本 arXiv:2308.01285, 2023。

付耀、彭浩、Tushar Khot 和 Mirella Lapata。通过自我游戏和人工智能反馈的上下文学习来改进语言模型协商。 arXiv 预印本 arXiv:2305.10142, 2023。

杜一伦、李爽、安东尼奥·托拉尔巴、约书亚·B·特南鲍姆和伊戈尔·莫达奇。通过多智能体辩论提高语言模型的事实性和推理能力。 arXiv 预印本 arXiv:2305.14325, 2023。

陈志敏、陈伟泽、苏雨生、于建轩、薛伟、张尚航、付杰和刘志远。 Chateval:通过多主体辩论迈向更好的基于 llm 的评估者。第十二届学习表征国际会议,2023 年。

田亮、何志伟、焦文祥、王兴、王艳、王锐、杨玉九、屠兆鹏和史书明。通过多智能体辩论鼓励大型语言模型中的发散思维。 arXiv 预印本 arXiv:2305.19118, 2023。

华文月、范利周、李令耀、梅凯、季建超、葛英强、Libby Hemphill 和张永峰。战争与和平(waragent):基于大型语言模型的多智能体模拟世界大战。 arXiv 预印本 arXiv:2311.17227, 2023。

Albert Q Jiang、Alexandre Sablayrolles、Arthur Mensch、Chris Bamford、Devendra Singh Chaplot、Diego de las Casas、Florian Bressand、Gianna Lengyel、Guillaume Lample、Lucile Saulnier 等。米斯特拉尔 7b. arXiv 预印本 arXiv:2310.06825, 2023。

斯特拉·比德曼、海莉·舍尔科普夫、昆汀·格雷戈里·安东尼、赫比·布拉德利、凯尔·奥布莱恩、埃里克·哈拉汉、穆罕默德·阿弗拉·汗、Shivanshu Purohit、USVSN Sai Prashanth、爱德华

拉夫等人。 Pythia:用于跨训练和扩展分析大型语言模型的套件。国际机器学习会议,第 2397-2430 页。 PMLR,2023。

陈寿元、Sherman Wong、陈亮建和田远东。通过位置插值扩展大型语言模型的上下文窗口。 arXiv 预印本 arXiv:2306.15595, 2023。

彭博文、杰弗里·奎斯内尔、范宏禄和恩里科·希波尔。 Yarn:大型语言模型的高效上下文窗口扩展。 arXiv 预印本 arXiv:2309.00071, 2023。

格雷瓜尔·米亚隆、罗伯托·德西、玛丽亚·洛梅利、克里斯托福罗斯·纳尔姆潘蒂斯、拉玛坎特·帕苏努鲁、

Roberta Raileanu、Baptiste Roziere、Timo Schick、Jane Dwivedi-Yu、Asli Celikyilmaz 等。增强语言模型:一项调查。机器学习研究汇刊,2023 年。

浪链.朗查恩. https://github.com/langchain-ai/langchain,2024。

快速地。快速 API 中心https://rapidapi.com/hub,2024 年。

肯·汤普森.对信任的反思。 ACM 通讯,27(8):761–763, 1984。

斯文·布吉尔、卢卡斯·戴维、亚历山德拉·德米特里安科、托马斯·费舍尔、艾哈迈德·雷扎·萨德吉和巴尔加瓦·沙斯特里。致力于抑制 Android 上的权限升级攻击。摘自 NDSS,第 17 卷,第 19 页,2012 年。

特里斯·沃肯廷·珍妮·班克斯。 Gemma:引入最先进的新开放模型。 https://blog.google/technology/developers/gemma-open-models/,2024 年。

Kishore Papineni、Salim Roukos、Todd Ward 和 Wei-Jing Zhu。 Bleu:一种机器翻译自动评估方法。计算语言学协会第 40 届年会记录,第 311-318 页,2002 年。

张天一、Varsha Kishore、Felix Wu、Kilian Q Weinberger 和 Yoav Artzi。 Bertscore:使用 bert 评估文本生成。 arXiv 预印本 arXiv:1904.09675, 2019。