
Meta放大招!Llama 4三大模型来袭,开源免费还超能打 原创 精华
最近,AI领域又掀起了一阵波澜!Meta AI一次性推出了三款全新的Llama 4模型,直接把开源AI的“战火”烧到了新的高度。在这个大家都忙着堆砌“闭源大模型”的时代,Meta却选择了另一条路:把强大的AI能力免费开源,让每个人都能用上。今天,咱们就来好好盘一盘这三款Llama 4模型,看看它们到底有多厉害!
Llama 4家族:各有千秋的“三兄弟”
Meta这次推出的Llama 4家族,包括Scout、Maverick和Behemoth三款模型。这三款模型各有特点,从轻量级部署到企业级推理,几乎涵盖了所有应用场景。最关键的是,Scout和Maverick已经对公众开放,大家可以免费使用!
Llama 4 Scout:小而精,快且强
Scout是Llama 4家族里最“小巧”的一个,但它可一点都不简单。这是一款专为轻量级应用设计的模型,特别适合那些没有强大GPU集群的开发者和研究人员。
- 架构:Scout采用了“专家混合”(MoE)架构,总共有16个专家模块,每次只激活其中的2个,这样在推理时就能保持高效。虽然它的总参数量有1090亿,但实际激活的参数只有170亿,而且它支持长达1000万token的上下文窗口,这在所有开源大模型里都是最长的。
- 效率:Scout的运行效率非常高,只需要一块H100 GPU,通过Int4量化就能轻松运行。这意味着,即使硬件条件有限,也能享受到高性能的AI服务。
- 性能:别看Scout“身材小”,它的性能可一点都不弱。在基准测试中,Scout轻松超过了Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1等同级别模型。
- 训练:Scout的训练过程也非常“豪华”。它在200种语言上进行了预训练,其中100种语言的数据量都超过10亿token。而且,它还支持多达8张图片的输入,能够处理复杂的图像和视频数据。
- 应用场景:Scout的长处在于处理长文本和图像推理任务。比如,它可以用来开发长记忆聊天机器人、代码总结工具、教育问答机器人,甚至还能优化移动设备或嵌入式系统上的AI助手。
Llama 4 Maverick:旗舰级的全能选手
如果Scout是家族里的“小钢炮”,那么Maverick就是“全能旗舰”。Maverick在推理能力、编码能力和多模态应用上都表现出色,是Llama 4家族的“门面担当”。
- 架构:Maverick同样采用了MoE架构,不过它有128个路由专家模块和一个共享专家模块。在推理时,它只激活170亿参数,总参数量达到了4000亿。而且,它支持文本和图像的早期融合输入,能够同时处理多达8张图片。
- 效率:Maverick的运行效率也非常高,可以在单个H100 DGX主机上运行,也可以扩展到多个GPU上。这意味着,它既可以满足单机用户的需求,也能适应大规模企业级应用。
- 性能:Maverick在多个基准测试中都取得了优异的成绩。在LMSYS聊天机器人竞技场中,它的ELO得分达到了1417,超过了GPT-4o和Gemini 2.0 Flash,与DeepSeek v3.1在推理、编码和多语言能力上不相上下。
- 训练:Maverick的训练过程更是“黑科技”满满。它采用了MetaP超参数缩放、FP8精度训练等先进技术,并且使用了30万亿token的数据集进行训练。这些技术让Maverick在图像理解、多语言推理和成本效率上都超越了Llama 3.3 700亿模型。
- 应用场景:Maverick的强大能力让它在多个领域都能大展身手。比如,它可以用于AI辅助编程、企业级文档理解,甚至还能开发教育辅导系统。
Llama 4 Behemoth:幕后“导师”
虽然Behemoth是Llama 4家族里最大的一个,但它并不对外开放。不过,它在训练Scout和Maverick的过程中发挥了关键作用。
- 架构:Behemoth是Meta迄今为止最大的模型,采用了MoE架构,有16个专家模块,在推理时激活2880亿参数,总参数量接近2万亿。它天生就是多模态的,在推理、数学和视觉语言任务上表现出色。
- 性能:Behemoth在多个STEM基准测试中都超过了GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro,比如MATH-500、GPQA Diamond和BIG-bench等。
- 角色:Behemoth的主要作用是作为“导师”,通过共蒸馏(co-distillation)的方式指导Scout和Maverick的训练。它引入了一种新的损失函数,动态平衡软监督和硬监督目标,让Scout和Maverick能够更好地学习。
- 训练:Behemoth的训练过程更是“硬核”。它采用了FP8精度训练、优化的MoE并行化技术,让训练速度比Llama 3快了10倍。此外,它还引入了新的强化学习策略,包括硬提示采样、多能力批量构建和多种系统指令采样。
如何使用Llama 4模型?
好消息是,现在你已经可以通过多种方式轻松使用Llama 4模型了,无论你是想做研究、开发应用,还是单纯想试试它的能力。
- llama.meta.com:这是Meta官方的Llama模型中心,提供了模型卡片、论文、技术文档,以及Scout和Maverick的开源权重。开发者可以下载这些模型,然后在本地或云端运行。
- Hugging Face:Hugging Face也提供了Llama 4的即用版本。你可以直接在浏览器中通过推理端点测试这些模型,或者通过Transformers库进行部署。此外,它还支持与Gradio和Streamlit等常见工具的集成。
- Meta应用:Llama 4模型还为Meta旗下的WhatsApp、Instagram、Messenger和Facebook等应用提供了AI助手功能。这意味着,你可以在这些日常应用中直接体验Llama 4模型的强大能力。
- 网页界面:你也可以直接通过网页界面访问最新的Llama 4模型,测试它的能力。
Llama 4模型实战测试
说了这么多,咱们也来实际测试一下Llama 4模型的能力。虽然Meta目前没有明确说明在应用或网页界面中使用的是哪一款模型(Scout、Maverick还是Behemoth),但我们可以尝试一些常见的任务,看看它的表现如何。
任务1:创意规划
提示:“为一个名为‘Soles’的鞋类品牌创建一个社交媒体内容策略,帮助他们吸引Z世代的用户。”
输出:Llama 4模型很快生成了一份详细但简洁的社交媒体策略。不过,目前在网页界面中还不能上传文件或图片,而且它也不支持网络搜索或画布功能。
观察:Llama 4模型的响应速度非常快,能够迅速生成一份有针对性的策略。
任务2:代码生成
提示:“编写一个Python程序,展示一个球在一个旋转的五边形内弹跳,遵循物理定律,并且每次弹跳后速度都会增加。”
输出:生成的代码存在一些错误。
观察:虽然模型能够快速理解需求,但在代码生成的准确性上还有待提高。
任务3:图像生成
提示:“生成一张图片,内容是一个人在笔记本电脑上工作,电脑屏幕上打开的文档标题为‘Llama 4’,拍摄角度要能看到屏幕,桌子上还有一杯咖啡和一盆植物。”
输出:模型生成了4张图片,其中一张效果最好。
观察:Llama 4模型不仅生成了图片,还提供了“编辑”和“动画”功能。你可以对图片进行局部修改,甚至还能生成GIF动图。
Llama 4模型的训练与优化
Meta在训练Llama 4模型时采用了结构化的两步过程:预训练和后训练。通过引入一系列新技术,让这些模型在性能、可扩展性和效率上都得到了显著提升。
预训练阶段
预训练是模型知识和能力的基础。Meta在这一阶段引入了多项创新:
- 多模态数据:Llama 4模型在超过30万亿token的多样化文本、图像和视频数据集上进行了训练。它们天生就是多模态的,能够同时处理语言和视觉信息。
- 专家混合(MoE):在每次推理时,模型只激活一部分参数。这种选择性激活让像Maverick(4000亿参数)和Behemoth(近2万亿参数)这样的超大模型能够更高效地运行。
- 早期融合架构:文本和视觉输入通过早期融合进行联合训练,将两者整合到同一个模型框架中。
- MetaP超参数调整:这种新技术让Meta能够为每一层设置学习率和初始化规模,这些参数可以在不同模型大小和训练配置之间很好地迁移。
- FP8精度:所有模型都采用FP8精度进行训练,这在不牺牲模型质量的情况下提高了计算效率。
- iRoPE架构:这是一种新的方法,使用交错注意力层,不使用位置嵌入,并在推理时进行温度缩放,帮助Scout更好地处理长达1000万token的极长输入。
后训练阶段
在基础模型训练完成后,Meta团队通过精心设计的步骤对模型进行了微调:
- 轻量级监督微调(SFT):Meta使用Llama模型作为“裁判”,筛选出更复杂的提示,只用这些更难的样例来微调模型在复杂推理任务上的表现。
- 在线强化学习(RL):通过硬提示、自适应过滤和课程设计,持续进行强化学习训练,保持模型在推理、编码和对话能力上的优势。
- 直接偏好优化(DPO):在强化学习之后,使用轻量级DPO微调特定边缘情况和响应质量,平衡模型的有用性和安全性。
- Behemoth共蒸馏:Behemoth作为“导师”,为Scout和Maverick生成训练输出。Meta还引入了一种新的损失函数,动态平衡软监督和硬监督目标。
通过这些步骤,Llama 4模型不仅在规模上庞大,而且在优化、安全性以及广泛任务上的能力上都得到了显著提升。
Llama 4模型的基准测试表现
Meta为Llama 4家族的三款模型都提供了详细的基准测试结果。这些结果不仅展示了每款模型根据其设计目标和参数规模的表现,还在一些新引入的、极具挑战性和全面性的基准测试中超过了领先的模型。
Llama 4 Scout
作为家族中最小的成员,Scout在注重效率的评估中表现得非常出色:
- ARC(AI2推理挑战):在常识推理任务中,Scout在同规模模型中表现优异。
- MMLU Lite:在历史、基础科学和逻辑推理等任务上表现稳定。
- 推理速度:即使在单个H100 GPU上,Scout也能以极低的延迟快速响应问答和聊天机器人任务。
- 代码生成:Scout在简单到中级编程任务上表现出色,非常适合教育编程助手。
- 针尖麦芒(NiH):在长达1000万token的文本或20小时视频的长文本任务中,Scout能够以近乎完美的精度检索信息,展现出无与伦比的长期记忆能力。
Llama 4 Maverick
Maverick是为了性能而生,它在各个方面的表现都非常出色:
- MMLU(多任务语言理解):在知识密集型任务中,Maverick超过了GPT-4o、Gemini 1.5 Flash和Claude 3 Sonnet。
- HumanEval(代码生成):在生成功能性代码和解决算法问题方面,Maverick与GPT-4不相上下,甚至在某些情况下表现更好。
- DROP(段落离散推理):Maverick展现了强大的上下文理解和数值推理能力。
- VQAv2(视觉问答):在基于图像的问答任务中,Maverick表现出色,展现了其卓越的视觉语言能力。
- 针尖麦芒(NiH):在长达100万token的长文档中,Maverick能够以近乎完美的精度检索隐藏信息,即使在极端上下文深度下也只有少数遗漏。
Llama 4 Behemoth
虽然Behemoth并不对公众开放,但它作为Meta最强大的评估基准,为其他模型的蒸馏和指导发挥了关键作用:
- 内部STEM基准测试:在科学、数学和推理方面,Behemoth在Meta内部测试中位居榜首。
- SuperGLUE和BIG-bench:Behemoth在这些测试中也取得了内部最高分,反映了其尖端的语言建模能力。
- 视觉语言整合:在需要结合文本和图像理解的任务中,Behemoth的表现往往超过了所有已知的公开模型。
这些基准测试结果清楚地展示了每款模型在其角色中的优势:Scout以速度和效率著称,Maverick在性能和通用任务上表现出色,而Behemoth则作为研究级别的“导师”模型,用于蒸馏和评估。
如何选择合适的Llama 4模型?
虽然Llama 4家族的三款模型各有特色,但它们也各有适用场景。下面是一个简单的对比总结,帮助你找到最适合你任务的Llama 4模型:
模型名称 | 总参数量 | 激活参数量 | 专家模块数量 | 上下文长度 | 运行环境 | 公开访问 | 适用场景 |
Scout | 1090亿 | 170亿 | 16 | 1000万token | 单个H100 GPU | ✅ | 轻量级AI任务、长记忆应用 |
Maverick | 4000亿 | 170亿 | 128 | 未列出 | 单个或多个GPU | ✅ | 研究、编码、企业级应用 |
Behemoth | 约2万亿 | 2880亿 | 16 | 未列出 | 内部基础设施 | ❌ | 内部蒸馏 + 基准测试 |
结语
Llama 4的发布,不仅仅是Meta的一次技术突破,更是开源AI领域的一次重大变革。这些模型不仅强大、高效,而且完全开源免费。开发者们再也不需要巨额预算就能用上顶尖的AI技术。从小微企业到大型企业,从课堂到研究实验室,Llama 4让尖端AI技术触手可及。在这个AI飞速发展的时代,开源不再是配角,而是未来的发展方向。而Meta,正是这个方向的有力推动者!
希望这篇文章能让你对Meta的Llama 4模型有更深入的了解!如果你对这些模型感兴趣,不妨亲自去试试它们的能力,说不定能给你的项目带来新的灵感呢!
本文转载自公众号Halo咯咯 作者:基咯咯
