传神社区解析|最强开源大模型Llama3上架传神社区!

OpenCSG官方下载链接:https://opencsg.com/models/AIWizards/Meta-Llama-3-8B

官方号称「有史以来最强大的开源大模型」

Meta公司今天发布新闻稿,宣布推出下一代大语言模型 Llama 3,共有 80 亿和 700 亿参数两种版本,号称是最强大的开源大语言模型。Meta 开源 Llama 3 的 80 亿参数版本,让所有人都能接触最前沿的人工智能技术。全球各地的开发人员、研究人员和好奇心强的人都可以进行游戏、构建和实验。在接下来的几个月里,Meta 计划推出新功能、更长的上下文窗口、额外的模型尺寸和增强的性能,并且将分享 Llama 3 的研究论文。

Llama 3的优势是什么?

Llama 3,性能重回王座

Llama 3 模型,拥有 8B(80 亿)和 70B(700 亿)参数,相较于 Llama 2 模型取得了显著进步,并在相应参数规模的大型语言模型领域刷新了性能纪录。得益于预训练和后续训练阶段的技术提升,Llama 3 无论是在预训练还是在指令微调后,都成为了目前业界在这些参数级别上表现最为出色的模型。后训练流程的优化显著降低了误拒率,增强了模型的一致性,并丰富了模型的响应多样性。此外,Llama 3 在推理、代码生成和遵循指令等方面的能力也有了显著提升,使其更加灵活易用。

Llama 3 将数据和规模提升到新的高度。Meta 表示,Llama 3 是在两个定制的 24K GPU 集群上、基于超过 15T token 的数据上进行了训练 —— 相当于 Llama 2 数据集的 7 倍还多,代码数据相当于 Llama 2 的 4 倍。从而产生了迄今为止最强大的 Llama 模型,Llama 3 支持 8K 上下文长度,是 Llama 2 容量的两倍。

此外,Meta 还开发了一套新的高质量人类评估数据集。该评估集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。为了防止 Llama 3 在此评估集上出现过度拟合,Meta 表示他们自己的团队也无法访问该数据集。下图显示了针对 Claude Sonnet、Mistral Medium 和 GPT-3.5 对这些类别和提示进行人工评估的汇总结果。

优秀的模型架构

Llama 3 选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比,Llama 3 做了几个关键的改进,包括:

  • Llama 3 使用具有 128K token 词汇表的 tokenizer,可以更有效地对语言进行编码,从而显著提高模型性能;

  • 为了提高 Llama 3 模型的推理效率,研究团队在 8B 和 70B 大小的模型上采用了分组查询注意力 (GQA);

  • 在 8192 个 token 的序列上训练模型,使用掩码确保自注意力不会跨越文档边界。

优秀的训练数据

为了训练最好的语言模型,管理大型、高质量的训练数据集至关重要。Meta 在预训练数据上投入了大量成本。Llama 3 使用超过 15T 的 token 进行了预训练,这些 token 都是从公开来源收集的。总体上讲,Llama 3 的训练数据集是 Llama 2 使用的数据集的七倍多,并且包含四倍多的代码。为了为即将到来的多语言用例做好准备,超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成。但是,Llama 3 在这些语言上的性能水平预计不会与英语相同。

为了确保 Llama 3 接受最高质量数据的训练,研究团队开发了一系列数据过滤 pipeline,包括使用启发式过滤器(filter)、NSFW 过滤器、语义重复数据删除方法和文本分类器来预测数据质量。

研究团队发现前几代 Llama 非常擅长识别高质量数据,因此 Meta 使用 Llama 2 为给 Llama 3 提供支持的文本质量分类器生成训练数据。

研究团队还进行了广泛的实验,以评估出在最终预训练数据集中不同来源数据的最佳混合方式,最终确保 Llama 3 在各种用例(包括日常问题、STEM、编码、历史知识等)中表现良好。

扩大预训练规模

Meta 透露,它们使用自定义训练库、Meta 的超级集群和生产集群预训练 Llama3。微调、注释和评估在第三方云计算上进行。

预训练是在 H100-80GB 类型的硬件(TDP 为 700W)上累计 770 万个 GPU 小时的计算。

为了训练最大的 Llama 3 模型,Meta 结合了三种类型的并行化:数据并行化、模型并行化和管道并行化。

当同时在 16K GPU 上进行训练时,Meta 最高可实现每个 GPU 超过 400 TFLOPS 的计算利用率。Llama3 是在两个定制的 24K GPU 集群上进行了训练。为了最大限度地延长 GPU 的正常运行时间,Meta 开发了一种先进的新训练堆栈,可以自动执行错误检测、处理和维护。Meta 还极大地改进了硬件可靠性和静默数据损坏检测机制,并且开发了新的可扩展存储系统,以减少检查点和回滚的开销。

这些改进使总体有效训练时间超过 95%。

综合起来,这些改进使 Llama 3 的训练效率比 Llama 2 提高了约三倍。

指令微调(fine-tune)

为了充分释放预训练模型在聊天场景中的潜力,Meta 还对指令微调方法进行了创新。Llama 3 后训练方法用的是有监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)的组合。SFT 中使用的 prompt 质量以及 PPO 和 DPO 中使用的偏好排序对模型对齐有着巨大的影响。

此次模型质量的最大改进,来自于仔细整理数据以及对人类注释者提供的注释进行多轮质量保证。

通过 PPO 和 DPO 从偏好排序中学习,也极大地提高了 Llama 3 在推理和编码任务上的性能。Meta 发现,如果你向模型提出一个它难以回答的推理问题,该模型有时会产生正确的推理轨迹:模型知道如何产生正确的答案,但不知道如何选择它。对偏好排序的训练使模型能够学习如何选择正确答案。

Llama 3 下一步:多模态、多语言、400B

Llama 3 很快将在所有主要平台上推出,包括云服务提供商、模型 API 提供商等

Meta的基准测试显示,Tokenizer 提供了改进的 Token 效率,与 Llama 2 相比,Token 数量减少了高达 15%。此外,分组查询注意力 (Group Query Attention, GQA) 现在也已经添加到 Llama 3 8B 中。因此,Meta观察到尽管模型比 Llama 2 7B 多出 10 亿参数,但由于改进的 Tokenizer 效率和 GQA,推理效率与 Llama 2 7B 相当。

Llama 3 8B 和 70B 模型标志着Meta计划为 Llama 3 发布的开始。还有更多的内容即将到来。

Meta所开发的最大型模型超过 400B 参数,尽管目前这些模型仍在训练阶段,但Meta的团队对它们展现出的潜力感到无比激动。在未来数月,Meta划推出一系列具备全新功能的模型,这些新功能将包括多模态、支持多语言对话、扩展上下文窗口的长度,以及全面提升的综合性能。此外,Llama 3 训练完成后,Meta也将发表一篇详尽的研究论文,以分享Meta的成果和发现。

为了展示这些模型在持续训练中的当前进展,Meta觉得可以提供一些Meta最大大语言模型(LLM)发展趋势的测试成绩。请注意,这些数据是基于仍在训练阶段的 Llama 3 模型的一个早期成绩,并且这些功能并不包含在Meta今天发布的模型中。

Meta AI:可画图可聊天、随处可见的 AI 助手

根据Meta官网介绍,最新的Llama 3模型将被集成进虚拟助手Meta AI中,用户可以在Facebook、Instagram、WhatsApp和Messenger程序上进行直接搜索,无需在应用程序之间切换。假设用户正在Messenger群聊中计划滑雪旅行,使用Messenger中的搜索功能,就可以要求Meta AI查找从纽约飞往科罗拉多州的航班,并找出最不拥挤的周末,所有这一切都无需离开Messenger应用。

根据Meta展示的手机操作画面,用户在和朋友计划出行时,可以直接在聊天应用程序内“艾特”@Meta AI,帮助客户寻找旧金山可以看到日落的野餐地点,或者在日本旅游时寻找最佳的观赏樱花地点。

Meta首席产品官克里斯·考克斯说:“最终的目标是帮助客户摆脱烦恼,让客户的生活变得更轻松,无论是帮助工作,还是写东西,还是计划旅行。”

据了解,Meta正在加快图像生成速度,用户可以使用Meta AI的Imagine功能实时利用文本创建图像,并在WhatsApp和Meta AI程序内推出了该功能的测试版。

Meta团队表示,最新的Llama 3将通过使用“高质量数据”让模型识别细微差别,减少了此前的一些问题。但Meta团队并没有详细说明所使用的数据集,仅仅只是介绍了Llama 3中输入的数据比Llama 2中使用的数据多七倍,并利用“合成”或人工智能创建的数据来加强编码和推理等领域。克里斯·考克斯表示,公司在获取数据的方式方面“态度没有重大变化。”