始智AI wisemodel.cn开源社区最新进展:发布首个Llama3中文模型,并介绍Llama 3性能与训练数据等详细信息 -- 知识铺
始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《加入wisemodel社区志愿者团队》以及《欢迎加入wisemodel开源共创计划》。
最近Meta正式发布并开源了Llama 3系列模型,本次发布了8B和70B的预训练及指令微调语言模型。Llama-3-8B和Llama-3-8B-Instruct两个模型已经有社区用户发布到了始智AI wisemodel.cn开源社区,欢迎大家把基于Llama3衍生的模型也发布到wisemodel上来。wisemodel社区里已有基于预训练版基础上经过SFT微调的Llama3-Chinese-chat-8B,也是目前发布的首个Llama3的中文模型。智源研究院数据智能团队也发布了首个基于Llama3的多模态大模型Bunny-Llama-3-8B-V。
最近wisemodel社区正在完善体验空间模块的功能,五一前后大家将可以直接在wisemodel社区的体验空间一键确认部署和体验Llama3-8B等系列模型,欢迎大家持续关注wisemodel社区的进展。
Llama 3 的亮点
1、基于超过 15T token 训练,相当于 Llama 2 数据集的 7 倍还多;
2、支持 8K 长文本,改进的 tokenizer 具有 128K token 的词汇量,可实现更好的性能;
3、在大量重要基准中均具有最先进性能;
4、新能力范畴,包括增强的推理和代码能力;
5、训练效率比 Llama 2 高 3 倍;
6、带有 Llama Guard 2、Code Shield 和 CyberSec Eval 2 的新版信任和安全工具。
Llama 3 性能评估
Llama 3 的8B和70B参数大小的模型相较于Llama 2是一个巨大的飞跃,得益于预训练和后训练的改进,预先训练模型和指令微调后的模型是目前存在的8B和70B参数规模下最好的模型,都在同等参数规模的模型上达到SOTA水准。在后训练过程中的改进显著降低了模型的错误拒绝率,改善了模型与人类指令的一致性,并增加了模型响应的多样性,在推理、代码生成和遵循指令等能力方面的大幅提升,使得Llama 3模型更加可控。Llama3-8B instruct模型在MMLU、GPQA、HumanEval等多项基准上均胜过Gemma 7B和Mistral 7B Instruct,Llama3-70B模型也超越了闭源的Claude 3 Sonnet,和谷歌的Gemini Pro 1.5性能相当。
Meta 还开发了一套新的高质量人类评估数据集。该评估集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。为了防止 Llama 3 在此评估集上出现过度拟合,Meta 表示他们自己的团队也无法访问该数据集。下图显示了针对 Claude Sonnet、Mistral Medium 和 GPT-3.5 对这些类别和提示进行人工评估的汇总结果。
模型架构
Llama 3 仍然是标准的decode-only的Transformer架构,相比 Llama 2的关键改进主要包括以下几点。首先,Llama 3 使用一个具有 128K 令牌词汇的 tokenizer,该词汇编码语言更高效,从而大幅改善了模型性能。其次,为了提高 Llama 3 模型的推理效率,在 8B 和 70B 大小上都采用了分组查询注意力(GQA)。然后,在 8,192 令牌的序列上训练了模型,并使用掩码来确保自注意力不跨文档边界。
训练数据
为了训练最好的语言模型,管理大型、高质量的训练数据集至关重要。Llama 3 使用超过 15T 的 token 进行了预训练,这些 token 都是从公开来源收集的。总体上讲,Llama 3 的训练数据集是 Llama 2 使用的数据集的七倍多,并且包含四倍多的代码。为了支持多语言需求, Llama 3 预训练数据集中高质量非英语数据超过 5%,涵盖 30 多种语言,Llama 3 在这些语言上的性能水平预计不会与英语相同。
为了确保 Llama 3 接受最高质量数据的训练,团队开发了一系列数据过滤pipeline,包括使用启发式过滤器(filter)、NSFW 过滤器、语义重复数据删除方法和文本分类器来预测数据质量。同时也使用 Llama 2来生成文本质量分类器的训练数据。团队还进行了系列的实验,以评估出在最终预训练数据集中不同来源数据的最佳混合方式,最终确保 Llama 3 在各种用例(包括日常问题、STEM、编码、历史知识等)中表现良好。
规模化预训练
为了在Llama 3模型中有效地利用预训练数据集,团队在大规模预训练方面投入了大量的精力,特别是为下游基准测试评估开发了一系列详细的scaling laws。这些方法对选择最佳的数据混合方案,以及最佳利用训练计算资源等方面有重要帮助。同时,基于这些方法,在实际训练模型之前就可以预测最大模型在关键任务上的性能(例如,在HumanEval基准测试上评估的代码生成能力等)。
在开发Llama 3的过程中,也有一些新的发现。例如,虽然对于8B参数模型来说,Chinchilla最优的训练计算量对应于约200B的token,但在两个数量级的更多数据上训练后,模型性能仍在持续提升。8B和70B参数模型在训练了高达15T个token后,性能仍然以对数线性方式提升。在Llama 3模型的训练过程中,采用了数据并行化、模型并行化和流水线并行化三种并行策略。
通过最高效的实现方式,他用1.6万个GPU同时训练时,每个GPU的计算利用率超过400 TFLOPS。Meta在分别在两个的2.4万个GPU的集群上进行了训练,并通过系列改进使得整体有效训练时间超过了95%。首先,开发了一个先进的新训练堆栈,用于自动化错误检测、处理和维护来提高GPU的有效训练时间。其次,提高了硬件的可靠性和对静默数据损坏的检测机制,并开发了一套新的可扩展存储系统,减少了检查点和回滚的开销。整体上,Llama 3训练的效率相比于Llama 2提高了约三倍。
指令微调
Meta对指令微调方法进行了创新,Llama 3 后训练方法将有监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)几种方法组合到一起。SFT 中使用的 prompt 质量以及 PPO 和 DPO 中使用的偏好排序对模型对齐有着巨大的影响。此次模型质量的最大改进,来自于仔细整理数据以及对人类注释者提供的注释进行多轮质量保证。
通过 PPO 和 DPO 从偏好排序中学习,也极大地提高了 Llama 3 在推理和代码任务上的性能。Meta 发现,如果你向模型提出一个它难以回答的推理问题,该模型有时会产生正确的推理轨迹:模型知道如何产生正确的答案,但不知道如何选择。对偏好排序的训练使模型能够学习如何选择正确答案。
首个Llama3中文模型
ShareAI团队在Llama3发布之后第一时间基于ShareGPT、ruozhiba、zhihu、xiaohongshu等数据集进行SFT微调训练,并已经发布在wisemodel社区。
模型地址
llama3-Chinese-chat-8b:
https://wisemodel.cn/models/shareAI/llama3-Chinese-chat-8b
Meta-Llama-3-8B:
https://wisemodel.cn/models/breadhunter/Meta-Llama-3-8B
Meta-Llama-3-8B-Instruct:
https://wisemodel.cn/models/breadhunter/Meta-Llama-3-8B-Instruct
Bunny-Llama-3-8B-V:
https://wisemodel.cn/models/BAAI/Bunny-Llama-3-8B-V
扫码加入wisemodel社群
-—- END —–
欢迎加盟
始智AI wisemodel社区自2023年9月上线以来,取得了积极的进展,初步形成一定的影响力,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员(根据个人意向可备注“求职”或“创业”),有意加盟的朋友也可以把简历投递到liudaoquan@wisemodel.cn。
wisemodel相关
1、始智AI-wisemodel社区正式上线,目标打造中国版“HuggingFace”
2、始智AI wisemodel.cn社区,努力建成中国最活跃的AI开源社区
4、wisemodel社区是中国的也将是全球AI开源生态的重要组成部分
系统升级
系列模型:
8、PixArt效果媲美MJ!超低训练成本,只需SD 10%训练时间**
**
9、贾佳亚团队提出VLM模型Mini-Gemini,已上线wisemodel社区,堪比GPT4+DALLE3王炸组合
10、使用Firefly在单卡V100上对Qwen1.5进行SFT和DPO,大幅超越Qwen1.5和Gemma
11、aiXcoder-7B代码大模型开源,代码生成与补全效果的新SOTA模型**
**
12、RWKV-6 1.6B(2.5T Tokens)模型开源,表现更出色
欢迎投稿
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护。期待更多开发者将开源成果发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,可以申请加入wisemodel社群,持续关注社区动态。
关于始智AI wisemodel.cn开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将努力打造成“HuggingFace”之外最活跃的社区,汇聚主要AI开源模型和数据集等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/geek001/post/20240424/%E5%A7%8B%E6%99%BAAI-wisemodel.cn%E5%BC%80%E6%BA%90%E7%A4%BE%E5%8C%BA%E6%9C%80%E6%96%B0%E8%BF%9B%E5%B1%95%E5%8F%91%E5%B8%83%E9%A6%96%E4%B8%AALlama3%E4%B8%AD%E6%96%87%E6%A8%A1%E5%9E%8B%E5%B9%B6%E4%BB%8B%E7%BB%8DLlama-3%E6%80%A7%E8%83%BD%E4%B8%8E%E8%AE%AD%E7%BB%83%E6%95%B0%E6%8D%AE%E7%AD%89%E8%AF%A6%E7%BB%86%E4%BF%A1%E6%81%AF--%E7%9F%A5%E8%AF%86%E9%93%BA/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com