开源世界的期待与涟漪
人工智能的浪潮奔涌向前,Meta的Llama系列一直扮演着特殊的角色。回想Llama 2的横空出世和开源姿态,极大地降低了高性能大模型的门槛,在全球范围内点燃了研究和应用的热情,催生了无数创新,其影响力至今仍在激荡。相较之下,Llama 3的发布虽然带来了性能提升,但在社区看来,似乎少了些 Llama 2那样的颠覆性震撼,更像是一次稳健但略显保守的迭代。
在这样的背景下,Llama 4的发布承载了社区极高的期待。4月6日大周末的,Llama 4发布了。然而,在看完Meta的官方博文文章后,我总体感觉是“千呼万唤始出来,犹抱琵琶半遮面”。那么它带来了什么?社区反响如何?它是否达到了人们的预期?我们深入看下。
Llama 4 :Meta的宏伟蓝图
Meta 的官方博文描绘了一个名为“Llama 4 牧群”(Llama 4 herd)的宏大计划,首批推出了三位成员,旨在开启“原生多模态 AI 创新”的新纪元:

- Llama 4 Scout (侦察兵):
- 定位: 高效、针对特定场景优化的模型。
- 参数: 17B (十亿) 激活参数,16 个专家(Experts),总参数 109B。
- 亮点:
- 原生多模态: 支持文本、图像、视频(帧)输入。
- 业界领先的 10M (千万) Token 上下文窗口: 这是最引人注目的数字之一。
- 高效推理: 据称可在单个 NVIDIA H100 GPU 上运行(Int4 量化)。
- 性能: 在同级别模型中表现优异,超越 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。
- Llama 4 Maverick (特立独行者):
- 定位: 通用、高性能的多模态模型。
- 参数: 17B 激活参数,128 个专家,总参数 400B。
- 亮点:
- 原生多模态: 同样具备强大的多模态处理能力。
- 1M (百万) Token 上下文窗口。
- 性能: 号称在同级别中击败 GPT-4o 和 Gemini 2.0 Flash,并在编码和推理方面与 DeepSeek v3.1 竞争。
- 成本效益: 对比 Llama 3.3 70B,以更低成本提供高质量输出。
- Llama 4 Behemoth (巨兽):
- 定位: 最强大的“教师模型”,用于知识蒸馏。
- 参数: 288B 激活参数,16 个专家,总参数接近2T (两万亿)!
- 亮点:
- 顶尖性能: 在 STEM 基准测试(如 MATH-500, GPQA Diamond)上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
- 多模态能力。
核心技术看点
- 原生多模态 (Native Multimodality):Llama 4 从底层设计就考虑了多模态融合,采用“早期融合”(Early Fusion)策略,将文本和视觉 Token 无缝集成到统一的模型骨干中,支持联合预训练。这与之前模型外挂视觉模块的方式有所不同。
- 混合专家模型 (MoE - Mixture of Experts):Scout 和 Maverick 都采用了 MoE 架构。这种架构在训练和推理时只激活总参数的一部分(由“路由器”决定将 Token 发往哪些“专家”),从而在给定计算预算下实现更高的效率和模型质量。Maverick 使用了多达 128 个专家,这是一个相当大的规模。
- 超长上下文窗口:Scout 的 10M Token 上下文是其宣传的重点。Meta 提到这得益于一种名为iRoPE(interleaved Rotary Position Embeddings)的架构创新,结合了交错注意力层和旋转位置编码,并辅以推理时注意力温度缩放(inference time temperature scaling)来增强长度泛化能力。
- 训练优化:使用 FP8 精度训练以提高效率,训练数据量超过 30 万亿 Token(包含文本、图像、视频),是 Llama 3 的两倍以上。还引入了名为 MetaP 的新技术来优化超参数设置。
- 知识蒸馏:Scout 和 Maverick 的高性能部分归功于从 Behemoth 模型进行的知识蒸馏(Codistillation),这使得小型模型能够继承大型教师模型的“智慧”。
社区反馈:光环之下的阴影
Meta 的发布引发了社区的热烈讨论,但并非一片赞歌:
- 10M 上下文窗口的“虚幻”:这是被集中火力攻击的一点。Meta自己的博文明确写道:“Llama 4 Scout is both pre-trained and post-trained with a256K context length”。这意味着,虽然模型可以通过iRoPE等技术在推理时尝试 处理更长的上下文(如 Needle-in-a-Haystack 测试所示),但它并没有在千万级别的真实长序列上进行过训练。超过256K Token,输出质量很可能大幅下降,因为模型缺乏处理如此长距离复杂依赖关系的训练经验。这使得 10M 的宣传数字更像是一个理论上限或特定任务(如信息检索)的表现,而非通用的长文本理解和生成能力。不少人认为这是一种营销上的“取巧”。
另外,很多模型宣称支持超长上下文窗口,并用“大海捞针”实验来测试,但技术上大家普遍认为“大海捞针”实验不能充分验证大模型能够充分的理解、引用、推理整个上下文中信息。 ( https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87 )这篇文章设计了Fiction.LiveBench长上下文基准测试。从12个复杂故事生成测试集,考查模型对角色变化、逻辑预测及信息区分的理解。相比“大海捞针”类的搜索测试,它更注重故事深层理解。
比如:在《神雕侠侣》小说中,在一个场景中“杨过被郭芙砍断一只手臂”,剧情发展很长后,有一个场景是“杨过单臂怀抱小龙女”。这两个场景在小说中可能相差很多个章节,那么如果我们问大模型:杨过为什么单臂怀抱小龙女?能够很好处理长下文的大模型应该能够根据之前很远的章节中的”被砍断一只手臂”的场景推理出来。 Fiction.LiveBench测试显示,就算当前第一梯队大模型在短上下文(1k)通过,长上下文(8k)失败的案例比比皆是【参考下面的表格,可以看到各个大模型在上下文窗口长度增长时,性能在几句的下降】。所以LLaMA 4宣称的10M长下文窗口,可能会有“虚幻“。
- 基准测试的意义:“书呆子的占星术”?Yuchen Jin 的评论虽带有戏谑(“Benchmarks? they are just astrology for nerds. Vibes only.”),却也反映了社区对基准测试局限性的普遍认知。Andriy Burkov 也提到,包括 Elo 评分在内的基准可以通过微调来“刷分”,使其看起来接近顶部。实际应用中的表现(“vibe check” 或在用户自己的问题上测试)可能与基准得分存在偏差,尤其是在幻觉(hallucination)等问题上,新模型可能并未比2023年的模型有质的飞跃。
- 推理能力的缺失?Martin Bowling 点出了一个潜在的短板:Llama 4的发布似乎并未特别强调或展示其在复杂推理 (reasoning)能力上的突破。Burkov甚至称其为“非推理模型”(non-reasoning model),认为即使有 30T 训练数据和 2T 参数,也无法让它超越那些更小的、但具备更强推理能力的模型。Bowling 觉得没有在这次发布中加入一个“推理器”(reasoner)很奇怪,认为本可以通过 GRPO 等技术轻松实现。
不尽如人意,但仍是重要一步
综合来看,Llama 4的发布是一次复杂且充满矛盾的事件。
亮点不容忽视:
- 它确实是 Meta 在开源多模态模型领域迈出的重要一步,原生多模态架构值得肯定。
- MoE 架构的应用显示了Meta在模型效率和规模化方面的持续探索。
- Scout和 Maverick在各自参数级别上展现了强大的竞争力,为开发者提供了新的、高性能的开源选择。
- 坚持开源本身就是对社区的巨大贡献。
失望与疑虑也真实存在:
- 10M上下文的宣传与实际训练深度之间的差距,可能影响社区信任。
- 高达2T参数的 Behemoth 未能在综合能力上展现绝对统治力,并处于“预览”状态,让“巨兽”的震撼打了折扣。
- 在社区日益关注的复杂推理能力上,Llama 4似乎没有带来惊喜。
- 对基准测试的依赖和潜在的“刷分”可能,使得对其真实能力的评估更加困难。
总体来说,Llama 4并没有完全满足社区对“革命性”突破的期待,它更像是一次雄心勃勃的技术探索,但部分成果的成熟度和实用性仍有待检验。Meta可能确实在技术上取得了进展,但在沟通和预期管理上,或许有些操之过急或过于乐观。
“犹抱琵琶半遮面”的 Behemoth 何时能完全展露真容?Meta是否会推出专注于推理的后续模型?超长上下文的承诺能否在实际应用中兑现?这些都是 Llama 4留给我们的悬念。
本文转载自后向传播,作者: 张发恩