开源大型语言模型正在彻底改变AI格局

 作者制作

大型语言模型(LLMs)已经成为革命性的工具,从根本上重塑了我们与技术的互动方式。

虽然像OpenAI的GPT-4谷歌的Gemini这样的专有模型占据了头条新闻,但开源社区提供了一个同样强大和可访问的替代品的宝库。

这些开源LLMs推动了创新和人工智能的民主化,使全球的爱好者、研究人员和开发人员能够扩大可以实现的前沿。

在本指南中,我们将发现顶级开源大型语言模型,这些模型正在彻底改变人工智能领域,并为技术进步的新时代提供动力。

什么是Open Source LLM?

开源大型语言模型(LLM)是一种人工智能,旨在使用大量数据理解和创建类似人类的文本。

与专有模型不同,开源LLMs可供任何人使用,改编和分发。它们是由不同的研究人员和开发人员共同开发的,促进了创新与合作。

这些模型使用户能够实现复杂的语言处理任务,如翻译,摘要和会话AI,而无需与商业解决方案相关的高成本。

通过提供可访问和可适应的人工智能工具,开源大型语言模型在推进技术和研究方面发挥着至关重要的作用。

需要了解更多关于开源软件的信息吗?看看这个-

开源大型语言模型的好处

开源LLM模型通过使尖端AI技术可访问并适用于各种应用程序来提供显着优势。

他们的共同努力**保证了持续的增强和开放,**培养社区内的创造力和信心。以下是大型语言模型的一些好处(LLMs)-

透明度和信任

开源模型在算法和数据源方面提供完全的透明度,促进信任,并对偏见和道德问题进行彻底的审查。

●可定制性

用户可以修改和调整模型以满足特定需求,从而实现专有模型可能无法提供的定制解决方案。

性价比高

开源LLMs消除了对昂贵许可证的需求,使先进的人工智能技术能够为预算有限的个人、初创公司和组织所用。

社区支持与合作

开源项目的蓬勃发展依赖于全球开发人员和研究人员的集体专业知识,导致持续的增强,错误解决和创新功能的引入。

2024年顶级开源LLMs

全球LLM市场预计将大幅增长,预计将从2023年的15.9亿美元增加到2030年的2598亿美元。这意味着在2023年至2030年的预测期内,复合年增长率(CAGR)为79.80%。

开源大型语言模型(LLMs)的领域是多样的和广阔的,提供了改变自然语言处理环境的强大工具。这些模型为开发人员、研究人员和爱好者提供了易于使用的尖端功能,从而实现了广泛的创新应用和进步。

1. LLaMA 3

  • **开发者:**Meta AI
  • **规模:**80亿和700亿
  • **架构类型:**生成式预训练Transformer模型

Llama 3的创建代表了Meta LLM技术的重大进步。它是一种先进的语言模型**,使用广泛的文本数据收集进行训练。**

这种全面的培训使Llama 3能够在各种任务中表现出色,例如创意写作,语言翻译和提供问题的信息性答案。

Llama 3模型将在多个平台上提供,包括Microsoft Azure、AWS、Google Cloud、Hugging Face、Databricks、IBM WatsonX、Kaggle、Snowflake等。

随着研究和开发的推进,我们可以预期Llama 3在各个行业的突破性应用。

 2. Google BERT

  • 开发者:Google
  • 规模:1.1亿和3.4亿
  • 体系结构类型:Transformer模型

双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)的深度双向学习方法彻底改变了自然语言处理。

BERT由Google开源,已成为各种语言理解任务的基石,利用上下文嵌入来增强情感分析、问答和命名实体识别等任务的性能。

它的影响力从学术界扩展到了工业应用领域,其多功能性和鲁棒性已被用于改进搜索引擎、聊天机器人和推荐系统。

 3.布鲁姆

  • **规模:**1760亿
  • **架构类型:**仅解码器Transformer模型

2022年,经过长达一年的合作,来自70多个国家的志愿者和Hugging Face的研究人员推出了BLOOM。

BLOOM是一种自回归语言模型,使用大量文本数据和大规模计算资源进行训练,以从提示中生成文本延续。

BLOOM的推出标志着在使每个人都更容易获得生成AI方面取得了重大进展。

BLOOM拥有1760亿个参数,是最强大的开源语言模型之一,擅长用46种语言和13种编程语言生成连贯和精确的文本。

在其核心,BLOOM重视透明度,确保其源代码和培训数据的可访问性,供所有用户部署,研究和增强。

访问BLOOM在Hugging Face生态系统中免费提供。

 4. Google的PaLM

  • **开发者:**Google AI
  • **规模:**3400亿
  • **体系结构类型:**Transformer模型

PaLM 2是Google最新的语言模型,增强了多语言、推理和编码能力。

PaLM 2在编码、分类、问答、数学、翻译、多语言能力和自然语言生成等高级推理任务中表现出色,优于之前的领先语言模型,包括其前身PaLM

这些进步是通过计算优化缩放、增强的数据集混合和架构改进实现的。

为了证明**谷歌对负责任的人工智能的奉献精神,**PaLM 2接受了对潜在危害和偏见的全面评估,以及其在研究和产品中的能力和应用。

此外,PaLM 2集成到Sec-PaLM等高级模型中,并支持PaLM API等生成式AI工具

 5.猎鹰AI

  • **开发单位:**Technology Innovation Institute(TII)
  • **Size:**40万亿
  • **架构类型:**Transformer的解码器架构

Falcon AI,特别是Falcon LLM40B,由阿联酋技术创新研究所(TII)公布。

40B”表示其使用400亿个参数。

TII开发了一个拥有70亿个参数的模型**,使用15000亿个令牌进行训练**。另一方面,Falcon LLM40B已经使用来自**RefinedWeb**的1万亿令牌进行了训练。

Falcon作为一种**专门使用自回归解码的模型,**标志着AI模型的重大飞跃。它的开发包括在AWS云上进行为期两个月的密集培训,利用384个GPU。

训练前的数据主要来自公开的来源,辅以从学术论文和社交媒体话语中提取的策划内容。

6. StableLM

  • **开发商:**Stability AI
  • **架构类型:**Transformer的解码器架构

Stability AI以其AI驱动的Stable Diffusion图像生成器而闻名,它推出了StableLM,这是一个开源大型语言模型的集合(LLMs)。

在最近的一份声明中,该公司在GitHub上提供了这些模型,供开发人员使用和自定义。

**与其竞争对手ChatGPT类似,**StableLM针对高效生成文本和代码进行了优化。这些模型是在Pile的扩展版本上训练的,Pile是一个开源数据集,集成了来自维基百科、Stack Exchange和PubMed等不同来源的数据。

Stability AI最初发布的StableLM模型的参数范围从30亿到70亿,未来还将发布更大的模型,参数范围从150亿到650亿

 7.大脑-GPT

  • **开发商:**Cerebras Systems
  • **尺寸:**111 M至13 B参数

Cerebras-GPT系列通过利用开放架构和数据集来推进LLM标度律的研究,展示了在Cerebras软件和硬件平台上训练LLMs的易用性和可扩展性。

该系列包括**从111 M到13 B参数的型号。**Cerebras-GPT系列中的每个模型都遵循龙猫缩放定律每个模型参数20个令牌,保持峰值计算效率。

培训是在**Andromeda AI超级计算机上进行的,该计算机由16个CS-2晶圆级系统组成。**利用Cerebras的权重流技术,通过将计算过程与模型存储分离,简化了LLM训练。这项创新通过简单的数据并行技术促进了跨节点培训的有效扩展。

8. XGen-7B

  • **开发者:**SalesForce
  • **尺寸:**70亿个参数

Salesforce推出了XGen-7 B,这是一个大型语言模型,拥有超过现有开源llm模型的扩展上下文窗口。

XGen-7BLLM的7 B标志意味着**70亿个参数。**模型的大小随着参数的增加而增加;例如,具有130亿个令牌的模型需要强大的CPU、GPU、RAM和存储。尽管有资源需求,但由于在广泛的数据库上进行了训练,较大的模型会产生更准确的响应。
因此,在尺寸和精度之间存在平衡。

XGen-7 B因其令人**印象深刻的8 K上下文窗口而脱颖而出。**这个扩展窗口允许更长的提示,并随后生成扩展的模型输出。8 K上下文窗口涵盖了输入和输出文本的大小,从而可以与模型进行更广泛的交互。

 9.维库纳-13 B

  • **开发者:**LMPEG 4
  • **尺寸:**7 B、13 B、33 B、65 B
  • **架构类型:**自回归语言模型

维库纳-13 B是一个基于开源原则的会话模型,它通过合并来自ShareGPT的用户贡献的会话来微调LLaMa 13 B模型

在使用GPT-4作为基准的初始评估中,维库纳-13 B表现出优异的上级性能。它在超过90%的情况下优于LLaMa和斯坦福大学Alpaca等模型,并实现了与OpenAI的ChatGPT和Google Bard相当或超过的聊天质量。

维库纳-13 B的开发涉及对通过ShareGPT获得的用户贡献对话数据集进行培训,增强其作为基于强大的LLaMa-13 B基础的开源聊天机器人的能力。

 结束语

开源大型语言模型(LLMs)的世界是一个激动人心的创新和协作前沿。从GPT的卓越功能到T5及更高版本的多功能应用,这些项目正在使尖端人工智能的使用民主化。

通过利用全球开发人员的集体智慧,这些LLMs正在为医疗保健,金融等领域的突破性进展铺平道路。
展望未来,这些开源工具的发展不仅有望重新定义人机交互,还将激发各行各业新一轮的创造力和解决问题的能力。

注意:为了消除不同类型的问题,我想提醒你这篇文章只是我想分享的个人观点,你有权不同意它。

如果你有更多的建议,我很乐意听听。

 认识你的作者

克莱尔·D是Digitalogy的内容制作者和策略师,可以将您的内容想法转化为清晰,引人注目,简洁的写作,与读者建立强大的联系。

MediumLinkedIn、&Twitter上与我联系