Llama 3来了!首批开源 8B 和 70B两个版本,未来有望开源400B大模型! 原创 精华

发布于 2024-4-22 10:38
浏览
0收藏

Llama系列是如今最流行的开源大模型,今天,Meta发布了其最新版本——Llama 3!并将很快上线 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 等平台。

在未来几个月里,Meta预计将推出新的功能、更长的上下文窗口、额外的模型大小以及增强的性能,并且将分享 Llama 3 的研究论文。

Llama 3 包含预训练和指令微调的语言模型,参数为 8B 和 70B,可以支持广泛的用例。这一代的 Llama 在各种行业基准测试中展现出最先进的性能,并提供了新的功能,包括改进的推理能力。

最先进的性能

新 8B 和 70B 参数的 Llama 3 模型比 Llama 2 跨越了一个重要的进步,并在这些规模上树立了新的技术标准。由于在预训练和后训练中的改进,预训练和指令微调模型是当今 8B 和 70B 参数规模下的最佳模型。后训练程序的改进大大降低了虚假拒绝率,提高了对齐度,并增加了模型响应的多样性。在推理、代码生成和指令跟随等大大改进了能力,使 Llama 3 更易于控制。

Llama 3来了!首批开源 8B 和 70B两个版本,未来有望开源400B大模型!-AI.x社区

有关评估详细信息,请参阅用于计算这些评估的设置和参数。

在 Llama 3 的开发过程中,Meta关注了模型在标准基准测试中的性能,并力求优化在真实场景中的性能。为此,研究人员开发了一个新的高质量人工评估集。这个评估集包含了 1800 个提示,涵盖了 12 个关键用例:征求建议、头脑风暴、分类、闭合问题回答、编码、创意写作、提取、扮演角色/人物、开放式问题回答、推理、重写和摘要。为了防止模型在这个评估集上意外过度拟合,即使Meta自己的建模团队也无法访问它。下面的图表显示了在这些类别和提示中的人工评估的综合结果,与 Claude Sonnet、Mistral Medium 和 GPT-3.5 进行了比较。

Llama 3来了!首批开源 8B 和 70B两个版本,未来有望开源400B大模型!-AI.x社区

人类注释员基于这个评估集的偏好排名凸显了 70B 指令跟随模型在真实场景中与相同规模竞争模型相比的强劲性能。

Llama 3来了!首批开源 8B 和 70B两个版本,未来有望开源400B大模型!-AI.x社区

为了开发出优秀的语言模型,Meta认为创新、扩展和简化优化至关重要。Meta在整个 Llama 3 项目中都采用了这种设计理念,并重点关注了四个关键要素:模型架构、预训练数据、扩大预训练规模和指令微调。

模型架构

根据Meta的设计理念,选择了在 Llama 3 中采用相对标准的仅解码器的Transformer架构。与 Llama 2 相比,做出了几项关键改进。Llama 3 使用了一个词汇量为 128K 的分词器,它更有效地编码语言,从而大大提高了模型性能。为了提高 Llama 3 模型的推理效率,在 8B 和 70B 大小的模型中都采用了分组查询注意力(GQA)。Meta使用一个长度为 8,192 个令牌的序列训练模型,并使用掩码来确保自注意力不会跨越文档边界。

训练数据

要训练出最佳的语言模型,策划一个大规模、高质量的训练数据集至关重要。根据设计原则,Meta大量投资于预训练数据。Llama 3 在公开可用的来源中收集了超过 15T 个令牌的预训练数据。Meta的训练数据集比用于 Llama 2 的数据集大了七倍,其中包括了四倍的代码。为了准备即将到来的多语言用例,超过 5% 的 Llama 3 预训练数据集由覆盖超过 30 种语言的高质量非英语数据组成。然而,Meta不指望在这些语言中获得与英语相同水平的性能。

为了确保 Llama 3 在最高质量的数据上进行训练,Meta开发了一系列数据过滤流程。这些流程包括使用启发式过滤器、NSFW 过滤器、语义去重方法和文本分类器来预测数据质量。Meta发现以前的 Llama 代的能力惊人地好,能够识别高质量的数据,因此使用 Llama 2 生成了驱动 Llama 3 的文本质量分类器的训练数据。

Meta还进行了大量实验,评估了在最终的预训练数据集中混合来自不同来源的数据的最佳方法。这些实验使能够选择一种数据混合,以确保 Llama 3 在各种用例中表现良好,包括琐事问题、STEM、编码、历史知识等。

扩大预训练规模

为了有效利用 Llama 3 模型中的预训练数据,Meta付出了大量努力来扩大预训练规模。具体来说,研究人员开发了一系列详细的用于下游基准评估的扩展定律。这些扩展定律使能够选择最佳的数据混合,并做出关于如何最佳利用训练计算资源的明智决策。重要的是,扩展定律使能够在实际训练模型之前,预测最大的模型在关键任务上(例如,在 HumanEval 基准测试中评估的代码生成)的性能。这有助于确保最终模型在各种用例和能力中表现出强劲的性能。

在 Llama 3 的开发过程中,Meta对扩展行为进行了几项新的观察。例如,虽然 8B 参数模型的训练计算资源的奇奇拉最佳量对应着约 200B 个令牌,但发现即使在模型训练了两个数量级的数据后,模型的性能仍然会持续改善。 8B 和 70B 参数模型在对其进行了多达 15T 个令牌的训练后,仍然呈对数线性改进。较大的模型可以在较少的训练计算资源下达到这些较小模型的性能,但较小的模型通常更受欢迎,因为它们在推理过程中更加高效。

为了训练最大的 Llama 3 模型,结合了三种并行化方式:数据并行化、模型并行化和管道并行化。最有效的实现在同时训练 16K 个 GPU 时,每个 GPU 的计算利用率超过 400 TFLOPS。在两个自定义构建的 24K GPU 集群上进行了训练。为了最大程度地提高 GPU 的正常运行时间,Meta开发了一套先进的新训练堆栈,用于自动化错误检测、处理和维护。

指令微调

为了充分发挥预训练模型在聊天应用场景中的潜力,Meta还对指令微调方法进行了创新。后训练方法是监督微调(SFT)、拒绝抽样、近端策略优化(PPO)和直接策略优化(DPO)的组合。在 SFT 中使用的提示质量以及在 PPO 和 DPO 中使用的偏好排名对齐模型的性能有着极大的影响。在模型质量上取得的一些最大改进来自于精心策划这些数据,并对人类注释员提供的标注进行了多轮质量保证。

通过 PPO 和 DPO 学习偏好排名也极大地提高了 Llama 3 在推理和编码任务上的性能。,如果你向模型提出一个它难以回答的推理问题,模型有时会产生正确的推理轨迹:模型知道如何生成正确的答案,但它不知道如何选择它。通过偏好排名的训练,模型可以学会如何进行选择。

利用 Llama 3 构建

Meta的愿景是使开发人员能够定制 Llama 3,以支持相关的使用案例,并使其更容易采用最佳实践并改善开放生态系统。在这个版本中,Meta提供了新的信任和安全工具,包括更新的 Llama Guard 2 和 Cybersec Eval 2 组件,以及 Code Shield 的引入——这是一个用于过滤由 LLM 生成的不安全代码的推理时间保护栏。

Meta还与 torchtune 共同开发了 Llama 3,这是一个新的 PyTorch 原生库,用于轻松编写、微调和实验 LLM。torchtune 提供了内存高效和可修改的训练配方,完全用 PyTorch 编写。该库集成了流行的平台,如 Hugging Face、Weights & Biases 和 EleutherAI,甚至支持 Executorch,在各种移动和边缘设备上实现高效推理。从提示工程到使用 Llama 3 与 LangChain,Meta都有一份全面的入门指南,从下载 Llama 3 到在您的生成式 AI 应用程序中进行规模化部署。

责任的系统级方法

设计 Llama 3 模型的目标是最大限度地提高其帮助性,同时确保采用行业领先的负责任部署方法。为了实现这一目标,Meta采用了一种新的、系统级的方法来负责任地开发和部署 Llama。Meta将 Llama 模型视为更广泛系统的一部分,让开发人员坐在驾驶座上。Llama 模型将作为开发人员根据其独特的最终目标设计的系统的基础组成部分。

Llama 3来了!首批开源 8B 和 70B两个版本,未来有望开源400B大模型!-AI.x社区

指令微调在确保模型安全性方面也起着重要作用。指令微调模型已经通过内部和外部努力进行了安全的红队测试。红队方法利用人类专家和自动化方法生成对抗性提示,试图引发问题响应。例如,对与化学、生物、网络安全等风险领域相关的误用风险进行了全面测试。所有这些努力都是迭代的,用于指导发布模型的安全微调。

Llama Guard 模型旨在成为提示和响应安全的基础,并可以根据应用需求轻松进行微调以创建新的分类。作为起点,新的 Llama Guard 2 使用最近公布的 MLCommons 分类法,旨在支持这一重要领域的产业标准的出现。此外,CyberSecEval 2 在其前身的基础上增加了对 LLM 允许滥用其代码解释器、攻击性网络安全功能以及易受提示注入攻击的倾向性的评估。最后,Meta引入了 Code Shield,它增加了对 LLM 生成的不安全代码进行推理时间过滤的支持。这提供了关于不安全代码建议、代码解释器滥用预防以及安全命令执行的风险缓解。

鉴于生成式 AI 领域的发展速度,Meta相信开放式方法是将生态系统汇聚在一起并减轻这些潜在危害的重要途径。作为其中的一部分,Meta正在更新《负责任使用指南》(RUG),提供了使用 LLM 进行负责任开发的全面指南。正如在 RUG 中概述的那样,Meta建议根据适用于应用的内容指南检查和过滤所有输入和输出。此外,许多云服务提供商提供内容调节 API 和其他用于负责任部署的工具,鼓励开发人员考虑使用这些选项。

Llama 3 的下一步是什么?

Llama 3 8B 和 70B 模型标志着Meta计划发布的 Llama 3 的开始。而且还有更多的功能即将推出。

Meta的最大模型包含超过 400B 的参数,尽管这些模型仍在训练中,但Meta团队对它们的趋势感到兴奋。在接下来的几个月中,Meta将发布多个具有新功能的模型,包括多模态、多语言对话的能力、更长的上下文窗口和更强大的整体功能。Meta还将在完成对 Llama 3 的训练后发布详细的研究论文。

为了让您提前了解这些模型目前的情况,Meta想分享一些关于最大的 LLM 模型趋势的快照。请注意,这些数据基于 Llama 3 的早期检查点,这些功能目前不支持作为今天发布的模型的一部分。

Llama 3来了!首批开源 8B 和 70B两个版本,未来有望开源400B大模型!-AI.x社区

Meta致力于持续发展和建设一个开放的人工智能生态系统,以负责任地发布模型。Meta长期以来一直相信开放性能够带来更好、更安全的产品,加速创新,并促进更健康的整体市场。这对 Meta 是有利的,也对社会是有益的。以社区为先的方式对待 Llama 3,从今天开始,这些模型已经可以在领先的云、托管和硬件平台上使用,而且还会有更多平台的支持即将到来。


Llama 3网址:https://llama.meta.com/llama3/

译自(有删改):https://ai.meta.com/blog/meta-llama-3/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=llama3


本文转载自公众号AIGC最前线   

原文链接:​​https://mp.weixin.qq.com/s/cyuPhRxeYQx6BgjqA0dPzw​


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐