全面解读大模型(LLM)的概念 - AI全书 -- 知识铺
什么是大模型?
背景 上世纪中叶,AI的发展初期存在三种主要流派,其中联结主义主张通过模仿人脑的神经元结构来实现人工智能。这一理念促成了人工神经网络(Artificial Neural Network)的诞生与发展。随着时间的推移,基于大量数据和计算资源训练的大规模人工神经网络,即“大模型”,逐渐成为AI技术中的焦点。
大模型的兴起并非偶然,它与人工神经网络的发展紧密相连,二者相互促进,共同成长。在探索大模型的过程中,我们不仅可以看到AI技术的进步,也能窥见其背后深刻的理论基础与历史脉络。有兴趣深入了解的朋友,可以参考有关人工智能的历史发展的相关资料。
人类的智能活动非常复杂,以语言为例,其中涉及大量的知识和推理。比如阅读文章时需要理解语句,识别其中的语法和语义,推断其中的逻辑关系,并将这些信息组合起来,最终形成整篇文章的意义。同样的,当进行对话时就需要理解对方的意图和情感,并在此基础上进行回应。大语言模型可以通过学习海量的文本数据,来模拟这些复杂的处理和推理过程,从而对这些任务进行建模和解决。这不仅有助于改进现有的自然语言处理(NLP)技术,还可以提供新的工具,用于更深入地理解和使用自然语言。通过发展AI来探索和了解人类智能的本质,这也是AI的初衷之一。
这里我们顺便讲一下我们经常接触的”涌现“这个词的定义。为了方便大家理解,我们举一个例子,新生儿学会说话基本都是在一岁至一岁半,尽管很多时候都是不明所以的单字词,但是前期在大量的听、学习和理解过程,突然某一天就开始说话了,并能理解大人讲的东西,在此基础上并表达自己的想法,这种现象就可以视为人类语言能力的“涌现”。
同样的,在人工智能领域,计算机通过自然语言处理技术,深度学习模型的参数积累到一定量时,便实现“涌现”能力,不可否认的,早期预训练模型做不到或做不好的事情,比如过去NLP中的文字生成、文本理解、自动问答等下游任务。在大语言模型不仅生成的文本更加流畅,内容的真实性也有了显著改善。当然,大模型最终能否走向“通用人工智能(AGI)”仍然不确定,只是目前来看,大模型的确有希望引领下一个重量级的AI赛道,这也是为什么最近几年大模型热出圈的原因之一。
模型定义
我们在生活中常常使用过很多模型,比如自制雪糕的雪糕模具,蛋糕店里摆着的蛋糕模型,装着鸡蛋羹的碗等等,这些都是模具,我们可以使用这些模具来更加简单地完成最终的成品。
进一步的举一个例子,我们做一道菜一般会有油、盐、酱、醋、味粉等调料,还有各种主料、辅料,然后按照一定的火候和时间及操作手法,就可以做出一道美味佳肴。如果你是开一个饭馆,客人又多,肯定会提前准备这些材料,然后客人按照菜单点菜,你拿到点的菜名后,就知道按照什么形式来做出这道菜。
在理解模型的概念时,我们可以将其视为一种工具或方法,通过它我们可以将输入转化为输出。这个过程涉及到参数的调整和操作手法的应用,就像烹饪一道菜一样。在计算机领域,模型通常由输入、参数和输出组成。例如,我们需要计算一个数的平方再减去3,就可以建立一个模型来进行这个计算。
大模型是一种特殊的模型,它的’大’主要体现在以下几个方面:
- 参数数量大:大模型拥有大量的模型参数,这些参数可以是数十亿甚至数千亿。例如,一些先进的语言模型可能拥有超过100亿个参数。2. 模型复杂度:由于参数众多,大模型可以捕捉和学习数据中非常复杂的模式和关系。3. 训练数据量大:大模型通常在大规模的数据集上进行训练,这些数据集可能包含数十亿个单词或更多,使得模型能够学习到丰富的语言知识和世界知识。4. 计算资源大:训练和运行大模型需要大量的计算资源,包括高性能的GPU或TPU、大量的存储空间以及高效的计算框架。5. 涌现能力:如前所述,大模型可能会展现出一些未明确编程的复杂能力,这些能力似乎是随着模型规模增加而自然出现的。
总的来说,大模型是一种通过自然语言处理和机器学习、深度学习等算法或学习方法,在大量的计算资源上,训练出的一种计算机软件模型。这种模型具有海量的参数,体现出人工智能的涌现能力,在人工智能的发展阶段体现出很强的适用性。
大模型并不等同于人工智能,它只是人工智能技术发展路径上的当前实践之一。目前的大模型仍处于弱人工智能的阶段。关于人工智能的更多解释,请参阅《什么是人工智能》一文。 在探讨模型参数时,我们可以将其比作烹饪中的调料和操作方法。如果做菜的操作空间有限,那么最终的味道可能比较单一,难以满足不同地区人群的口味需求。给你更多的调料和足够的操作时间,再加上对火候、容器等的不同选择,你可以创造出更符合要求的菜肴,甚至可能是独一无二的味道。在大模型中,这些选择因素就是参数。模型参数的数量越多,其推理能力通常越强,这一点可以类比于人类大脑的成长和成熟过程。 模型参数是指在机器学习和深度学习模型中可以学习的权重和偏置等变量。在训练过程中,通过优化算法(例如梯度下降法)调整这些参数,目的是最小化模型预测值与实际值之间的差异。参数的初始值通常是随机设置的,随着训练的进行,它们会逐渐收敛到能够捕捉输入数据中复杂模式和关系的合适数值。 在大模型中,参数的数量通常非常庞大。以OpenAI的GPT-3模型为例,它拥有约1750亿个参数,这使得它能够执行更复杂的任务,如自然语言生成、翻译、摘要等。大量的参数赋予了模型更强的表示能力,但同时也带来了更高的计算成本和内存需求。因此,大模型通常需要特殊的硬件资源(如GPU或TPU)和优化策略(如分布式训练和混合精度训练)来进行有效的训练。
大模型是怎么训练出来的?
大模型的参数可以通过训练过程自动调整以捕获输入数据中的复杂关系。这类模型通常具有较深的网络结构和较多的神经元,以增加模型的表示能力和学习能力。
大语言模型训练主要分三步:
第一步,无监督学习
通过大量的数据,进行无监督预训练,得到一个能进行文本生成的基座模型。
比如GPT-3这个基座模型的训练数据,有多个互联网文本语料库,覆盖新闻、书籍、论文、维基百科、社交媒体等等,训练的数据足足有3000亿的token(一文看懂什么是token):
模型训练与优化
无监督学习阶段
在获取了大量无需人工标注的训练数据后,我们可以通过无监督学习的方式让模型自主地学习人类语言的语法、语义及其表达结构和模式。这种学习方法允许模型根据上下文预测后续文本内容,并通过具体的反馈调整预测权重,以更准确地预测接下来的内容。随着训练的深入,模型生成自然语言的能力将不断提升。这一过程的核心在于使用Transformer架构,一种深度学习模型,它在处理序列数据方面表现出色。对于希望深入了解Transformer的工作原理,可以参考《图解Transformer原理》。 此阶段的训练是整个过程中最耗时、最耗费算力和成本的部分。例如,GPT-3的训练就花费了几个月的时间,动用了成百上千个V100 GPU,并产生了几百万美元的成本。
aaaaaa## 监督学习微调
为了使初步训练得到的基座模型能够适用于实际应用,比如具备良好的对话能力,我们需要引入监督学习来进行模型的微调。这一步骤中,我们会使用高质量的人类编写的对话数据来对模型进行进一步训练,从而获得一个更加适合特定任务的优化版本。通过这种方式,不仅可以提升模型的文本续写能力,还能增强其对话交互的质量。
总之,虽然第一步训练出来的模型已经具备了一定的语言理解能力,但它可能并不完全适合直接部署使用。因此,针对具体应用场景的数据集进行监督学习微调是必要的,这样可以使模型更好地适应实际需求。
在这个阶段,训练所需的数据量相对较少,训练时间也较短,成本大大降低。模型不再从海量的数据中学习,而是从人类编写的高质量专业对话中学习。这个过程相当于同时给出了问题和人类认可的答案,属于监督学习,也被称为监督微调(SFT,Supervised Fine-Tuning)。完成这一步后,我们得到了一个SFT模型。
第三步,训练奖励模型+强化学习
在这一阶段,我们会使用问题和多个对应的回答数据,让人类标注员对对话质量进行排序。然后,基于这些数据,我们训练出一个能对回答进行评分预测的奖励模型。接着,我们使用这个奖励模型对第二步得到的模型对问题的生成回答进行评分,并利用评分进行反馈进行强化学习训练。
这个过程有点像训练小狗。小狗通过与训练师的互动,会发现某些动作能获得食物奖励,而某些动作则会受到惩罚。通过观察动作和惩罚之间的关系,小狗会逐渐被训练成训练师所期望的样子。
要让模型一样,达到人类希望的样子,也是一样的道理,让模型对问题进行回答,然后对问题进行评估(3H原则:Helpful-有用性、Honest-真实性、Harmless-无害性),但是靠人类来评估效率太低,所以我们先训练一种奖励模型用来评估。相对于人类来评估,效率得到极大的提升,通过大强化学习,最终大模型就被练成了。
可以看这个视频,了解下ChatGPT的训练过程:
大模型用到的主要技术
大模型使用了许多高级技术,主要包括以下几个方面:
- 深度神经网络(Deep Neural Networks,DNNs)
大模型通常采用深度神经网络,拥有多个隐藏层,以捕捉输入数据中的高阶特征和抽象概念。
在计算机视觉任务中,大模型通常采用卷积神经网络。通过局部感受野、权值共享和池化操作等设计,CNN可以有效处理图像数据,提取多尺度的视觉特征。
在序列数据处理任务(如自然语言处理和语音识别)中,大模型可能采用循环神经网络或其变体(如长短时记忆网络)来捕捉时序关系。
Transformer 是一种自注意力机制(Self-Attention Mechanism)的神经网络架构,广泛应用于自然语言处理领域的大模型中。Transformer 可以并行处理输入序列中的所有元素,大幅提高了模型的训练效率。
- 预训练与微调(Pretraining and Fine-tuning)
为了充分利用大量参数,大模型通常先在大规模数据集上进行预训练,学到通用的特征表示。然后,在特定任务的数据集上进行微调,以适应特定应用场景。
- 分布式训练(Distributed Training)和混合精度训练(Mixed Precision Training)
为了处理大模型的计算和存储需求,研究者采用了一些高效训练策略,如分布式训练(将模型和数据分布在多个设备或节点上进行并行计算)和混合精度训练(利用不同精度的数值表示以减少计算和内存资源需求)。
这些技术和策略共同支持了大模型的开发和应用,使其在各种复杂任务中取得了出色的性能。然而,大模型也带来了训练成本、计算资源和数据隐私等方面的挑战。
大模型的分类
模型的发展最初是伴随着自然语言处理技术的不断发展的,这是由于文本数据的数据量更大且更容易获取。所以目前大模型最大的分类还是大语言模型,近两年衍生出一些语言与其他形式融合的大模型,例如,文字生成音乐(MusicLM)、文字生成图像(DALL-E2,Midjourney)、文字图像生成机器人动作(RT-1)、文字生成视频(Sora)等。
大模型包括但不限于以下几类:
大语言模型
专注于处理自然语言,能够理解、生成和处理大规模文本数据。大语言模型在机器翻译、文本生成、对话系统等任务上取得显著成果。OpenAI的GPT系列是其中的代表,包括最新的GPT-4。
视觉大模型
专注于计算机视觉任务,例如图像分类、目标检测、图像生成等,视频生成。它们能够从图像中提取有关对象、场景和结构的信息。例如Vision Transformer(ViT)就是一种基于自注意力机制的视觉大模型,用于图像分类任务,而Diffusion Transformer(DiT)是一种结合了扩散模型和Transformer架构的深度学习模型,它通过逐步去除噪声并逆转这个过程来生成高质量的图像,特别在处理复杂图像模式和细节方面表现出色。
多模态大模型
能够处理多种不同类型的数据,如文本、图像、音频等,并在这些数据之间建立关联。多模态大模型在处理涉及多种感知输入的任务上表现出色,如文图融合、图像描述生成等。多模态是大模型接下来发展的一大趋势。CLIP(Contrastive Language-Image Pre-training)就是一个多模态大模型,能够同时理解文本和图像,用于任务如图像分类和自然语言推理。
决策大模型
专注于进行决策和规划,通常应用于强化学习等领域。它们能够在面对不确定性和复杂环境时做出智能决策。深度强化学习中的模型,如AlphaGo和AlphaZero,是决策大模型的代表,能够在围棋等游戏中取得超人类水平的表现。
行业垂直大模型
专门设计用于特定行业或领域的任务,如医学、环境、教育等。它们通常在处理特定领域的数据和问题时表现出色。在医疗领域,大规模的医学图像处理模型用于诊断和分析。在金融领域,模型可能用于风险评估和交易策略。
大模型的挑战和困难
大模型在2023年突然遍地开花,井喷式发展,尤其是后半年,几乎大部分科技公司、学术团体、研究机构、以及学生团队都在发布各自的大模型,感觉大模型突然从洛阳纸贵到了唾手可得,24年开始很多项目都关于大模型方面的,是当前(截止2024年上半年)资本亲睐的方向。与此同时,大模型也存在一些困难和挑战,大致可以从三个方面来归纳下。
训练成本
前文在如何训练大模型里提到过,大模型的规模和复杂性是需要大量的计算资源进行训练和推断。通常需要使用高性能的计算单元,如GPU(图形处理单元)或TPU(张量处理单元)来支持大模型的运算。
算力、数据、算法模型三者共同构建了大模型应用的发展生态,三者的关系也是相互依存、缺一不可的。算力的充足与否直接影响到大模型的训练速度和模型的规模,更强大的算力可以支持更大的模型、更长的训练时间,以及更高的训练精度;数据的多样性、质量和规模对大模型的性能和泛化能力有重大影响,丰富的数据可以帮助模型更好地理解不同情境和问题,提高模型的性能;算法模型的改进可以减少对算力和数据的需求,使模型更高效地训练,或者在有限的数据条件下取得更好的性能。
在当今的大数据时代,我们面临着前所未有的挑战和机遇。一方面,数据的量级、速度、多样性和价值密度都在以惊人的速度增长,这对我们的数据处理能力提出了更高的要求。另一方面,大模型的发展也带来了新的可能,它们具有强大的理解和生成能力,可以处理各种复杂的任务。然而,这些技术的应用也面临着一些挑战,如数据的真实性、计算资源的需求、算法的复杂性等。因此,我们需要不断研究和探索,以找到更好的解决方案,使这些技术能够更好地服务于我们的生活和工作。
随着人工智能技术的飞速发展,大模型(Large Language Models,LLMs)已成为技术创新的核心。本文将探讨大模型的发展现状、应用方向以及面临的挑战和解决方案。首先,我们将介绍大模型的基本概念及其在自然语言处理领域的应用。接着,我们将分析当前大模型存在的行业知识不足、应用经验缺失以及使用门槛高的问题,并提出相应的解决方案。最后,我们将探讨大模型的未来发展方向和趋势,包括多模态融合、自监督学习、增强学习与自我调节等。
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai/post/20241218/%E5%85%A8%E9%9D%A2%E8%A7%A3%E8%AF%BB%E5%A4%A7%E6%A8%A1%E5%9E%8BLLM%E7%9A%84%E6%A6%82%E5%BF%B5-AI%E5%85%A8%E4%B9%A6--%E7%9F%A5%E8%AF%86%E9%93%BA/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com