人工智能(AI)是当前全球最热门的话题之一,被视为21世纪科技领域和生活方式转变的风向标。了解人工智能的定义、分层、技术及其边界至关重要。此外,通用人工智能(AGI)作为人工智能的一个分支,旨在达到或超过人类的智能水平,具备感知、理解、学习和推理等基础思维能力,并能在不同领域灵活应用、快速学习和创造性思考。在探讨这些概念时,重要的是要认识到大模型(如LLM)在人工智能发展中的核心作用,它们相当于人的大脑,通过学习(训练)来提升其智能水平。

LLM(大模型)

大模型(Large Language Models,简称LLM)是一类使用大量数据进行训练,以理解和生成自然语言文本的人工智能模型。这些模型通常基于深度学习的神经网络架构,尤其是变换器(Transformer)架构,它们能够捕捉语言的复杂性和细微差别。

相对于上图,大模型在现今热门的生成式人工智能里面当于人类大脑,经过大量的数据和机器学习训练出来的,里面含有海量的参数变量(可以理解为学习到的知识点),有了这些知识点,你问它一些问题,它能根据学习到的参数变量推理,给你返回结果。

想要了解更多,可以查看《什么是大模型LLM》内容,了解大模型的前世今生,以及大模型是怎么训练出来的。

也可以查看B站视频:《啥是大语言模型(LLM)

模型参数

模型参数是指在机器学习和深度学习模型中可学习的权重和偏置等变量。在训练过程中,通过优化算法(如梯度下降)来调整这些参数,以最小化模型预测值与实际值之间的差距。参数的初始值通常是随机的,随着训练的进行,它们会逐渐收敛到合适的数值,以捕捉输入数据中的复杂模式与关系。

模型参数越多,LLM推理能力越强,具体见《什么是模型参数》相关内容介绍。

算法

人工智能有三驾马车:数据、算法、算力,算法就是:解决问题的手段,并且是批量化解决问题的手段。

具体见《算法 | Algorithm》一文,介绍算法人工智能里的概念,算法的4个特征、6个通用方法,以及在选择算法时需要注意的3个点

算力

人工智能有三驾马车:数据、算法、算力。

算力,通常指的是计算机或计算系统执行运算的能力,它是衡量计算机处理数据速度的一个重要指标。在人工智能、大数据处理、科学计算等领域,算力尤为重要,因为这些任务往往需要处理大量的数据和复杂的计算。

相关算法见《算力》详细介绍一文,让你看懂什么是算力?算力包括哪些类别,分别有什么用途?

自然语言处理

每种动物都有自己的语言,机器也是,自然语言处理技术让计算机能够理解数字信息并能做适当的思考,详见介绍见《自然语言处理》相关章节

机器学习(ML)

机器学习研究和构建的是一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测,机器学习不是某种具体的算法,而是很多算法的统称。通过机器学习,让计算机得到一定的判断和推理能力。

具体看《机器学习 ( machine learning | ML)》章节,让你看懂什么是机器学习,机器学习在人工智能中的地位,机器学习、人工智能、深度学习是什么关系?机器学习包含哪些?学习步骤有哪些?

深度学习(DL)

深度学习是机器学习的一个分支,深度学习有很好的表现,引领了第三次人工智能的浪潮。也是现今大模型训练中很重要的学习方法之一。

详细了解深度学习:《一文看懂深度学习(白话解释+8个优缺点+4个典型算法)

神经网络

AI里面是指人工神经网络,顾名思义,是一个可以说是仿生学的概念。人类发现神经元之间相互协作可以完成信息的处理和传递,于是提出了人工神经网络的概念,用于进行信息处理。

详细了解人工神经网络:《人工神经网络(Artificial Neural Network | ANN)

Transformer

谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率。

详细介绍见《图解Transformer原理

也可以看这个B站视频,即使没有技术背景,也能看懂:《啥是大语言模型(LLM)

Token

它一般是指大语言模型的一个基本单位,短的一个英文单词可能就被定为一个token,比如"refers",而长的英文单词可能会被拆分成多个token,比如”Tokenization“,中文的话,所占的token数量相对会更多,有些字要用1个甚至多个token表示。

详见《什么是token一文》相关介绍。

模型应用

模型训练完成之后,拥有海量参数的模型就相当于有了一个人工智能大脑,有了人工智能大脑后,把模型部署起来,利用模型的推理能力,就成了大家可以接触到的应用。

智能体

学术界和工业界对术语“智能体”提出了各种定义。大致来说,一个智能体应具备类似人类的思考和规划能力,拥有记忆甚至情感,并具备一定的技能以便与环境、智能体和人类进行交互,能完成特定的任务内容。可以将智能体想象成环境中的数字人,可以简单概括为以下定义:

智能体 = 大语言模型(LLM) + 观察 + 思考 + 行动 + 记忆

更多详细,见《一文看懂什么是智能体(AI Agent)》,带你了解智能体的起源、定义、特征、组成单元,适用的工作,以及一些开源的框架实践。

多模态

多模态(Multimodal)在人工智能领域中是一个非常重要的概念,它指的是系统能够同时处理和理解来自不同来源或不同类型数据的能力。简单来说,就是AI能够同时看”(视觉信息)“听”(听觉信息)“读”(文本信息)等多种信息。

举个例子,就像人类在交流时,不仅能听懂对方说的话(听觉信息),还能看到对方的手势和表情(视觉信息),甚至能通过文字理解对方写的内容(文本信息)。多模态AI系统就是模仿这种能力,让机器能够更全面、更准确地理解和处理信息。

下面我将从几个方面来详细解释多模态的概念:

  • 数据类型:多模态AI处理的数据类型不仅限于一种,它可以包括图像、声音、文本、视频等。

  • 信息融合:多模态系统能够将不同模态的信息融合起来,以获得更全面的理解。比如,结合视觉和听觉信息来识别一个人是否在生气。

  • 应用场景:多模态技术在很多领域都有应用,比如自动驾驶汽车需要视觉(识别路标和行人)、听觉(识别紧急车辆的警报声)和传感器数据(感知周围环境);聊天机器人需要理解文本信息和语音信息。

  • 挑战:多模态系统的一个主要挑战是如何有效地整合不同模态的信息,因为不同模态的信息可能有不同的特征和表示方式。

  • 优势:多模态系统通常比单一模态系统更准确、更鲁棒,因为它们可以从多个角度理解信息,减少错误解读的可能性。

  • 发展:随着技术的进步,多模态AI正在快速发展,未来可能会有更多令人激动的应用出现。

多模态AI就像是给机器装上了多种感官,让它能够更全面地理解和处理信息,从而更好地服务于人类。

prompt

在人工智能领域,尤其是在大型预训练语言模型(如GPT)中,“prompt"指的是输入到模型中的一段文本、问题或指令,用以引导模型产生特定的输出。简单来说,prompt 是用户给AI的提示或指令,它告诉AI需要执行什么样的任务或者生成什么样的内容。

以下是关于prompt在AI中作用的几个关键点:

  • 任务引导:通过精心设计的prompt,可以引导AI模型执行特定的任务,如回答问题、生成文本、翻译语言等。

  • 内容生成:在文本生成任务中,prompt可以是一个简短的问题、一个完整的段落,或者是一组指令,AI模型会根据prompt生成相应的文本内容。

  • 优化输出:优化prompt可以提高AI模型输出的准确性和相关性。清晰、具体和一致的prompt往往会让生成的结果更准确。

  • 结构化信息:在prompt中使用结构化信息,如列表、步骤、标题等,可以帮助模型生成有组织、清晰的文本,特别适用于生成教程、说明、步骤等类型的文本。

  • 避免错误:在设计prompt时,应避免模棱两可或歧义的指令,以减少模型生成不合理或不准确回应的可能性。

  • 创新和趣味性:设计能够引导生成创新性和有趣性文本的prompt是一项挑战,可以通过使用开放性问题、提供有趣的背景、引用名人名言等方法激发模型的创意。

  • 技术发展:随着技术的进步,prompt技术在多个领域如医疗、金融、教育等展现出强大的能力,并且在不断探索新的设计方法和优化策略以提高模型性能。

  • Prompt Engineering:这是一种AI技术,通过设计和改进AI的prompt来提高AI的表现,创建高度有效和可控的AI系统。

  • 应用前景:尽管prompt技术存在一些局限性,但其在很多领域的应用前景仍然非常广阔,未来有望发挥更加重要的作用。

在实际应用中,由于人工智能还没能那么智能化,很多时候理解人类的需求不是特别到位,所以prompt的设计对于AI模型的表现至关重要,它直接影响着模型生成的文本的内容、风格和质量。

如果你想知道如何驾驭使用大模型,可以学习使用prompt,请看《如何成为一个prompt工程师

RAG

RAG,即检索增强生成(Retrieval-Augmented Generation),是一种人工智能技术,它结合了检索模型的准确性与生成模型的创造性,以达到更高层次的准确性和创新性。RAG 架构利用大型数据库和大型语言模型(LLM)的动态功能来生成富有洞察力和准确性的结果。

RAG 的工作流程通常包括以下几个步骤:

  1. 检索(Retrieval):使用用户的查询从外部知识源检索相关上下文。这一步骤通常需要用嵌入模型将用户查询嵌入到与向量数据库中额外上下文相同的向量空间,以便进行相似性搜索,从向量数据库中返回最接近的前k个数据对象。

  2. 增强(Augmentation):将用户查询和检索到的额外上下文放入一个提示模板中。这个增强后的提示会包含更多的信息,有助于模型生成更准确和详细的回答。

  3. 生成(Generation):最后,将增强后的提示输入到大型语言模型(LLM)中进行生成,产生最终的回答。

RAG 的优势在于它允许大型语言模型在无需重新训练的情况下利用额外的数据资源来提高生成式 AI 的质量。这使得RAG非常适合那些需要最新信息、特定领域知识或个性化数据的应用场景。例如,客服系统、教育平台、研究和分析工具以及内容生成等领域都能从RAG中受益。

详细了解请阅读《一文看懂什么是RAG(检索增强生成)》,讲明白什么是RAG,RAG和大模型什么关系,RAG的发展阶段,五个基本流程和12个优化策略。

AIGC

AIGC 是人工智能领域中的一个术语,它代表 “Artificial Intelligence Generated Content”,即“人工智能生成内容”。这个术语通常用来描述利用人工智能技术自动生成各种类型内容的过程,包括但不限于文本、图像、音频和视频等。

AIGC 技术可以应用在多个领域,例如:

  • 写作和编辑:自动生成新闻文章、报告、小说等。

  • 艺术创作:创作绘画、音乐、诗歌等艺术作品。

  • 设计:自动生成设计图案、建筑模型等。

  • 娱乐:生成游戏内容、电影剧本等。

  • 教育:创建教育材料和模拟场景。

AIGC 通常依赖于机器学习模型,特别是深度学习技术,如自然语言处理(NLP)模型、图像生成模型(如GANs,生成对抗网络)等。这些模型通过学习大量的数据样本,能够模仿和复制人类的创造性过程,从而生成新的内容。

AIGC 技术的发展带来了许多机遇,同时也引发了一系列关于版权、伦理和创造性劳动的讨论。随着技术的进步,AIGC 在未来可能会在更多领域发挥重要作用。

12B这里的B是什么?

大模型参数的5B、7B是指模型中可训练参数的数量。这里的“B”表示10亿(Billion),即10^9。因此,5B表示50亿个可训练参数,7B表示70亿个可训练参数。这些参数是神经网络中的权重和偏置,它们在训练过程中通过反向传播算法进行更新,以使模型能够更好地拟合训练数据。

其他

GPU

CPU 是计算机的大脑,能处理各种计算任务,适合处理复杂的任务。而GPU 结构非常简单,适合处理重复简单的任务,如矢量计算,这在人工智能领域非常适合使用。

具体可见《什么是GPU(Graphics Processing Unit)