LLaMA 4来了 | 千呼万唤始出来，犹抱琵琶半遮面 | 不尽如人意精华

发布于 2025-4-7 00:04

浏览

0收藏

开源世界的期待与涟漪

人工智能的浪潮奔涌向前，Meta的Llama系列一直扮演着特殊的角色。回想Llama 2的横空出世和开源姿态，极大地降低了高性能大模型的门槛，在全球范围内点燃了研究和应用的热情，催生了无数创新，其影响力至今仍在激荡。相较之下，Llama 3的发布虽然带来了性能提升，但在社区看来，似乎少了些 Llama 2那样的颠覆性震撼，更像是一次稳健但略显保守的迭代。

在这样的背景下，Llama 4的发布承载了社区极高的期待。4月6日大周末的，Llama 4发布了。然而，在看完Meta的官方博文文章后，我总体感觉是“千呼万唤始出来，犹抱琵琶半遮面”。那么它带来了什么？社区反响如何？它是否达到了人们的预期？我们深入看下。

Llama 4 ：Meta的宏伟蓝图

Meta 的官方博文描绘了一个名为“Llama 4 牧群”（Llama 4 herd）的宏大计划，首批推出了三位成员，旨在开启“原生多模态 AI 创新”的新纪元：

LLaMA 4来了 | 千呼万唤始出来，犹抱琵琶半遮面 | 不尽如人意-AI.x社区

Llama 4 Scout (侦察兵):

定位: 高效、针对特定场景优化的模型。
参数: 17B (十亿) 激活参数，16 个专家（Experts），总参数 109B。
亮点:

原生多模态: 支持文本、图像、视频（帧）输入。
业界领先的 10M (千万) Token 上下文窗口: 这是最引人注目的数字之一。
高效推理: 据称可在单个 NVIDIA H100 GPU 上运行（Int4 量化）。
性能: 在同级别模型中表现优异，超越 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。

Llama 4 Maverick (特立独行者):

定位: 通用、高性能的多模态模型。
参数: 17B 激活参数，128 个专家，总参数 400B。
亮点:

原生多模态: 同样具备强大的多模态处理能力。
1M (百万) Token 上下文窗口。
性能: 号称在同级别中击败 GPT-4o 和 Gemini 2.0 Flash，并在编码和推理方面与 DeepSeek v3.1 竞争。
成本效益: 对比 Llama 3.3 70B，以更低成本提供高质量输出。

Llama 4 Behemoth (巨兽):

定位: 最强大的“教师模型”，用于知识蒸馏。
参数: 288B 激活参数，16 个专家，总参数接近2T (两万亿)！
亮点:

顶尖性能: 在 STEM 基准测试（如 MATH-500, GPQA Diamond）上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
多模态能力。

状态: 预览阶段，尚未发布，仍在训练中。

核心技术看点

原生多模态 (Native Multimodality):Llama 4 从底层设计就考虑了多模态融合，采用“早期融合”（Early Fusion）策略，将文本和视觉 Token 无缝集成到统一的模型骨干中，支持联合预训练。这与之前模型外挂视觉模块的方式有所不同。
混合专家模型 (MoE - Mixture of Experts):Scout 和 Maverick 都采用了 MoE 架构。这种架构在训练和推理时只激活总参数的一部分（由“路由器”决定将 Token 发往哪些“专家”），从而在给定计算预算下实现更高的效率和模型质量。Maverick 使用了多达 128 个专家，这是一个相当大的规模。
超长上下文窗口:Scout 的 10M Token 上下文是其宣传的重点。Meta 提到这得益于一种名为iRoPE（interleaved Rotary Position Embeddings）的架构创新，结合了交错注意力层和旋转位置编码，并辅以推理时注意力温度缩放（inference time temperature scaling）来增强长度泛化能力。
训练优化:使用 FP8 精度训练以提高效率，训练数据量超过 30 万亿 Token（包含文本、图像、视频），是 Llama 3 的两倍以上。还引入了名为 MetaP 的新技术来优化超参数设置。
知识蒸馏:Scout 和 Maverick 的高性能部分归功于从 Behemoth 模型进行的知识蒸馏（Codistillation），这使得小型模型能够继承大型教师模型的“智慧”。

社区反馈：光环之下的阴影

Meta 的发布引发了社区的热烈讨论，但并非一片赞歌：

10M 上下文窗口的“虚幻”：这是被集中火力攻击的一点。Meta自己的博文明确写道：“Llama 4 Scout is both pre-trained and post-trained with a256K context length”。这意味着，虽然模型可以通过iRoPE等技术在推理时尝试处理更长的上下文（如 Needle-in-a-Haystack 测试所示），但它并没有在千万级别的真实长序列上进行过训练。超过256K Token，输出质量很可能大幅下降，因为模型缺乏处理如此长距离复杂依赖关系的训练经验。这使得 10M 的宣传数字更像是一个理论上限或特定任务（如信息检索）的表现，而非通用的长文本理解和生成能力。不少人认为这是一种营销上的“取巧”。
另外，很多模型宣称支持超长上下文窗口，并用“大海捞针”实验来测试，但技术上大家普遍认为“大海捞针”实验不能充分验证大模型能够充分的理解、引用、推理整个上下文中信息。（ https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87 ）这篇文章设计了Fiction.LiveBench长上下文基准测试。从12个复杂故事生成测试集，考查模型对角色变化、逻辑预测及信息区分的理解。相比“大海捞针”类的搜索测试，它更注重故事深层理解。
比如：在《神雕侠侣》小说中，在一个场景中“杨过被郭芙砍断一只手臂”，剧情发展很长后，有一个场景是“杨过单臂怀抱小龙女”。这两个场景在小说中可能相差很多个章节，那么如果我们问大模型：杨过为什么单臂怀抱小龙女？能够很好处理长下文的大模型应该能够根据之前很远的章节中的”被砍断一只手臂”的场景推理出来。 Fiction.LiveBench测试显示，就算当前第一梯队大模型在短上下文（1k）通过，长上下文（8k）失败的案例比比皆是【参考下面的表格，可以看到各个大模型在上下文窗口长度增长时，性能在几句的下降】。所以LLaMA 4宣称的10M长下文窗口，可能会有“虚幻“。
基准测试的意义：“书呆子的占星术”？Yuchen Jin 的评论虽带有戏谑（“Benchmarks? they are just astrology for nerds. Vibes only.”），却也反映了社区对基准测试局限性的普遍认知。Andriy Burkov 也提到，包括 Elo 评分在内的基准可以通过微调来“刷分”，使其看起来接近顶部。实际应用中的表现（“vibe check” 或在用户自己的问题上测试）可能与基准得分存在偏差，尤其是在幻觉（hallucination）等问题上，新模型可能并未比2023年的模型有质的飞跃。
推理能力的缺失？Martin Bowling 点出了一个潜在的短板：Llama 4的发布似乎并未特别强调或展示其在复杂推理 (reasoning)能力上的突破。Burkov甚至称其为“非推理模型”（non-reasoning model），认为即使有 30T 训练数据和 2T 参数，也无法让它超越那些更小的、但具备更强推理能力的模型。Bowling 觉得没有在这次发布中加入一个“推理器”（reasoner）很奇怪，认为本可以通过 GRPO 等技术轻松实现。

不尽如人意，但仍是重要一步

综合来看，Llama 4的发布是一次复杂且充满矛盾的事件。

亮点不容忽视：

它确实是 Meta 在开源多模态模型领域迈出的重要一步，原生多模态架构值得肯定。
MoE 架构的应用显示了Meta在模型效率和规模化方面的持续探索。
Scout和 Maverick在各自参数级别上展现了强大的竞争力，为开发者提供了新的、高性能的开源选择。
坚持开源本身就是对社区的巨大贡献。

失望与疑虑也真实存在：

10M上下文的宣传与实际训练深度之间的差距，可能影响社区信任。
高达2T参数的 Behemoth 未能在综合能力上展现绝对统治力，并处于“预览”状态，让“巨兽”的震撼打了折扣。
在社区日益关注的复杂推理能力上，Llama 4似乎没有带来惊喜。
对基准测试的依赖和潜在的“刷分”可能，使得对其真实能力的评估更加困难。

总体来说，Llama 4并没有完全满足社区对“革命性”突破的期待，它更像是一次雄心勃勃的技术探索，但部分成果的成熟度和实用性仍有待检验。Meta可能确实在技术上取得了进展，但在沟通和预期管理上，或许有些操之过急或过于乐观。

“犹抱琵琶半遮面”的 Behemoth 何时能完全展露真容？Meta是否会推出专注于推理的后续模型？超长上下文的承诺能否在实际应用中兑现？这些都是 Llama 4留给我们的悬念。

本文转载自后向传播，作者：张发恩

标签

LLaMA 4

51CTO

51CTO博客

51CTO学堂

LLaMA 4来了 | 千呼万唤始出来，犹抱琵琶半遮面 | 不尽如人意精华

开源世界的期待与涟漪

Llama 4 ：Meta的宏伟蓝图

核心技术看点

社区反馈：光环之下的阴影

不尽如人意，但仍是重要一步

目录

51CTO

51CTO博客

51CTO学堂

LLaMA 4来了 | 千呼万唤始出来，犹抱琵琶半遮面 | 不尽如人意 精华

开源世界的期待与涟漪

Llama 4 ：Meta的宏伟蓝图

核心技术看点

社区反馈：光环之下的阴影

不尽如人意，但仍是重要一步

目录

LLaMA 4来了 | 千呼万唤始出来，犹抱琵琶半遮面 | 不尽如人意精华