随着大模型时代的到来,人工智能技术成为了热门话题。各种基于大模型的平台层出不穷,为广大用户提供了基本的对话、图片生成、视频或语音生成等功能,大大提高了工作效率。然而,这些平台目前主要被用于解决临时性问题或处理一些琐碎的小事务,大众接触到的人工智能技术可能局限于此,如查询某个知识点或编写某个代码函数等。但要完成一些只能由人类完成的系统性工作,如开发一个软件或发行一本书等任务时,仅靠几次大模型对话是难以实现的。即使由人来完成,也往往需要多人协作才能完成。例如,我们要做一个调研报告,一般需要经过以下流程:首先确定研究主题和目标;然后收集相关资料和数据;接着进行分析和整理;最后撰写报告并呈现结果。
人类做调研报告时序图

于是研究人工智能的这群高等人类,研究设定出一种人工智能的概念——智能体,用于解决特定领域工作任务的Agent(代理,就是替代人类工作的东西),解放人类为完成某项任务繁锁的工作内内容:


智能体的定义在学术界和工业界中有多种表述,但核心思想是构建一个能够模拟人类思考、规划、记忆和情感的实体。根据AI全书的观点,智能体可以被定义为环境中的数字人,其结构由大语言模型(LLM)、观察能力、思考能力、行动能力和记忆功能组成。这些组成部分共同使智能体能够在复杂的环境中进行交互并完成特定任务。

  • 大语言模型(LLM):LLM作为智能体的“大脑”部分,使其能够处理信息,从交互中学习,做出决策并执行行动。

  • 观察和感知:这是智能体的感知机制,使其能够感知其环境。智能体可能会接收来自另一个智能体的文本消息、来自监视摄像头的视觉数据或来自客户服务录音的音频等一系列信号。这些观察构成了所有后续行动的基础。

  • 推理思考:思考过程涉及分析观察结果和记忆内容并考虑可能的行动。这是智能体内部的决策过程,其可能由LLM进行驱动。

  • 行动执行:这些是智能体对其思考和观察的显式响应。行动可以是利用 LLM 生成代码,或是手动预定义的操作,如阅读本地文件。此外,智能体还可以执行使用工具的操作,包括在互联网上搜索天气,使用计算器进行数学计算等。

  • 记忆和检索:智能体的记忆存储过去的经验。这对学习至关重要,因为它允许智能体参考先前的结果并据此调整未来的行动。

智能体的特征

智能体 (Agents) 特别强调其学习能力和行动能力。学习能力是智能的一个关键指标,也是智能体的基本要求之一;构建学习的智能体 (Learning Agents),使其能够在最初未知的环境中运行,通过与环境交互持续学习迭代使其使其知识技能得以提升,决策能力不断增强。另外智能体的行动能力使得它们能够通过感知、决策、行动来与环境进行交互不断迭代学习实现给定的目标。在人工智能领域,智能体可以指代具有自主性和智能的程序或系统,也能够通过感知、规划、决策并执行相关任务。这些智能体可以用于解决各种问题,如自动驾驶、自然语言处理和游戏。这些智能体可以是虚拟的,例如软件程序,也可以是物理的,如机器人。

除了前面强调的自主和行动能力外,智能体还具备其它的特征。比如Wooldridge (1994) 提到智能体的一些特征包括:

  • 自主性:智能体能够在无需外部干预的情况下独立运作,并对自身的行为和状态拥有一定程度的控制力。

  • 响应性:智能体能够感知其所处的环境变化,并迅速做出反应,无论是物理世界、用户界面、其他智能实体还是互联网。

  • 主动性:智能体不仅限于对环境变化的被动反应,它们还能通过主动采取行动来展现目标导向的行为。

  • 社会性:智能体能够通过特定的通信方式与其他智能实体或人类进行交流和互动。

随着大型语言模型(LLM)等AI技术的进步,人们对智能实体的期望日益提高。现代智能实体不仅要具备上述特性,还应拥有更高层次的自主性,能够独立地学习和执行任务。此外,智能实体也被视作一种由人类设计和实现的系统,它们被赋予了知识、信念、理性、意图和责任感等人类特质。

为了更系统地探讨智能实体,我们首先从较为狭窄的角度进行定义:智能实体是一种计算机系统,它能够根据预设的目标在一定范围内自主地实现目标。我们可以参考自动驾驶汽车的分级制度,从基础到高级逐步构建智能实体,以实现更高级别的自主性。同时,对智能实体进行分级管理,不仅可以有效应对潜在风险,还能最大限度地发挥其应用价值。

智能体的工作环境

1、环境

智能体离不开其工作环境。智能体的环境是其需要影响和适应的外在因素,它是智能体的控制对象。智能体通过与环境交互来观察感知、规划决策和行动执行等与环境形成反馈闭环以实现其目标。智能体通过观测感知单元 (Sensor) 感知环境然后通过执行行动单元(Actuator)作用于环境来与环境交互来实现其预设的目标。在这个智能体系统中,环境是智能体知识的来源也是其作用的对象;智能体通过观察感知环境的状态,结合智能体内置的知识形成某种策略并作用于环境,从而优化其效用或收益,通过不断迭代实现其目标。智能体的工作环境可以是物理环境也可以是虚拟环境。

比如对于自动驾驶智能体,它面对的工作环境元素包括道路、其它交通工具、警察、行人、乘客和天气等。这些因素在交通管理和安全中起着重要的作用。

2、环境的特性

在实际应用中,智能体的工作环境往往不是一成不变的,也有一定的不确定性。

不确定性(Nondeterminism)

如果环境的下一个状态完全由当前状态和智能体执行的动作决定,那么我们称这个环境是确定性的(Deterministic);否则,它是非确定性的。大多数现实情况都如此复杂,以至于智能体不可能跟踪所有未能观察到的环境状态;在这种情况下,它们被视为非确定性的。这是因为在真实的情境中,有太多未知的变量和因素,使得无法精确地预测下一个状态。因此,在处理这些情况时,通常会将环境视为非确定性的,以考虑一些不确定性因素。

如果环境的模型的不确定性明确涉及概率(例如,“明天下雨的概率为25%”),则该模型是随机的 (Stochastic),而如果只列出可能性而没有量化(例如,“明天有可能下雨”),则是非确定性的。

动态性(Dynamics)

智能体在进行规划时环境的状态往往会随时间的推移而发生变化,那么该智能体的环境是动态的(Dynamic);否则,环境是静态的。虽然静态环境更易于处理,因为智能体在决定行动时无需不断地观察世界,也无需担心时间的流逝,但大多实际应用中环境是动态的。自动驾驶智能体的环境显然是动态的。

智能体应对动态的或不确定的环境,可能需要不断地获得状态的反馈,通过推断了解环境状态及其变化,可以及时地做出合适的行动决策并反馈作用于环境。

智能体关键组成单元

智能体本身包括感知观测单元 (Sensor)、记忆检索单元(Memory)、推理规划单元(Planner) 和行动执行单元(Actuator)。

智能体系统概述

一、观测与感知

智能体通过感知单元来获取环境信息,这些信息构成了规划、学习和决策的基础。理想情况下,环境是完全可观测的,即智能体可以在任何时间点观察到环境的完整状态。然而,在现实世界中,环境往往是部分可观测的,智能体必须依赖于内部状态或额外信息来补充不完整的感知数据。

二、记忆与检索

内置知识

  • 语言:理解并生成自然语言的能力对于交流至关重要。

  • 常识:拥有基本的世界观有助于做出更合理的决策。

  • 领域:特定领域的专业知识能够提高解决问题的效率。

历史记忆

历史记忆记录了智能体过往的经验,包括其过去的观测、思考和行动。这使得智能体能够从过去的学习中获益,并在面对类似情境时应用有效的策略。

三、推理与规划

推理和规划使智能体能够分析复杂问题并制定解决方案。它们允许智能体将任务分解为更小的子任务,并为每个子任务创建实现目标的具体步骤。

四、行动与执行

行动执行是将智能体的决策转化为实际操作的过程。它依赖于智能体的现有信息和经验,而不涉及尚未感知的信息。

多智能体系统的结构

多智能体系统可以视为一个智能体社会,包含以下组件:

  • 智能体:具有观察、思考、行动和记忆能力的个体成员。

  • 环境:智能体互动的公共空间。

  • 标准流程(SOP):确保系统有序高效运作的既定程序。

  • 通信:智能体之间交换信息的过程。

  • 经济:价值交换系统,影响资源分配和任务优先级。


在智能体的世界里,我们看到了三个主角:Alice、Bob和Charlie。他们通过观察、思考和行动与环境互动。以Charlie为例,他接收来自Alice的文件和Bob的需求,然后利用自己的记忆库来编写代码,最后将结果发布到环境中供Bob使用。这个过程展示了智能体的工作流程,包括观察、思考、行动和使用工具。 接下来,我们将探讨几个智能体的应用实例:

  1. 调研员:这个角色模拟了人类进行网络搜索并撰写报告的过程。它首先分析问题,然后将其分解为子问题,通过搜索引擎查找信息,浏览网页内容,提取有用信息,并最终生成报告。

  2. 教程助手:这个角色能够根据输入的句子生成技术类教程。它首先创建一个大纲,然后填充每个部分的内容,最后将标题和内容组合成完整的文档。

  3. 收据助手:这个角色可以从不同格式的发票文件中提取结构化信息,如收款人、城市、总金额和开票日期,并将这些信息保存为CSV文件。对于ZIP文件,它会先解压再处理里面的发票文件。 此外,还有许多面向开发者的开源框架,这些框架提供了智能体实践的源代码。尽管智能体的概念很吸引人,但目前的人工智能技术还无法完全实现自我思考和决策。不过,在一些简单规则性的任务中,智能体方案已经开始显示出其潜力。