Llama 4 凌晨震撼发布:Meta开源最强MoE多模态模型,1000万上下文碾压行业! 原创

发布于 2025-4-7 06:35
浏览
0收藏

就在4月6日凌晨,Meta 毫无预兆地发布了 Llama 4,这是其开源大模型 Llama 系列的最新成员,也是迄今为止 最强的开源多模态大模型!

此次发布的 Llama 4 系列包括 Scout、Maverick 和 Behemoth 三个版本,其中 Scout 和 Maverick 已开放下载,而 Behemoth 仍在训练中,预计未来几个月正式亮相。

Meta 首席执行官 马克·扎克伯格 在官方公告中激动地表示:

“我们的目标是打造世界领先的 AI,并将其开源,让全球受益。今天,Llama 4 让这一愿景更进一步!”

下载地址:  llama.com/llama-downloads

Llama 4 凌晨震撼发布:Meta开源最强MoE多模态模型,1000万上下文碾压行业!-AI.x社区

三大版本解析

1. Llama 4 Scout(170亿激活参数,16专家)

  • 1000万token上下文窗口(行业最长!相当于15000页文本)
  • 单张H100 GPU即可运行(Int4量化后)
  • 专为长文档摘要、代码库推理优化,性能超越Gemma 3、Gemini 2.0 Flash

2. Llama 4 Maverick(170亿激活参数,128专家)

  • 4000亿总参数,但仅激活170亿(MoE架构高效推理)
  • 竞技场(Arena)得分1417,超越DeepSeek V3,在编程、数学、创意写作等任务中排名第一
  • 成本极低:推理仅需0.49/百万token,远低于GPT-4o($4.38/百万token)

3. Llama 4 Behemoth(2880亿激活参数,2万亿总参数)

  • 仍在训练中,但已超越GPT-4.5、Claude 3.7 Sonnet
  • 目标:全球最强AI模型,未来将作为“教师模型”指导Scout和Maverick


Llama 4 凌晨震撼发布:Meta开源最强MoE多模态模型,1000万上下文碾压行业!-AI.x社区


技术突破

1. 首次采用MoE架构,计算效率飙升

Llama 4 是 Meta 首个混合专家(Mixture of Experts, MoE)模型,每个 token 仅激活部分参数,大幅降低计算成本。例如:

  • Maverick 有4000亿参数,但仅激活170亿,可在单台H100上运行。

2. 原生多模态,视觉理解能力一流

  • 早期融合技术:文本、图像、视频统一训练,支持48张图像输入
  • 精准图像定位:可锚定图像特定区域进行问答

3. 超长上下文支持,1000万token创纪录

  • Scout 支持1000万token,可处理20小时视频或7500页文档
  • iRoPE架构:无位置嵌入+交错注意力层,增强长文本泛化能力

4. 训练数据翻倍,多语言能力更强

  • 30万亿token训练数据(Llama 3的两倍)
  • 支持200种语言,其中100+语言数据超10亿token

性能实测

Meta 官方测试显示:✅ Maverick 在 DocVQA(94.4)超越 DeepSeek V3(92.8)✅ Behemoth 在 MATH-500(95.0)击败 GPT-4.5✅ Scout 在长文本检索任务中碾压 OpenAI 模型


Llama 4 凌晨震撼发布:Meta开源最强MoE多模态模型,1000万上下文碾压行业!-AI.x社区

开源生态可能的影响

Llama 4 的发布,让 开源大模型竞争开始进入白热化

  • DeepSeek V3 刚发布不久,就被Llama 4超越,传闻DeepSeek R2 可能提前发布
  • Mistral 3.1、Gemma 3 面临压力,Scout 在多项基准测试中领先


本文转载自公众号AI 博物院 作者:longyunfeigu

原文链接:​​https://mp.weixin.qq.com/s/6UMydJZGZ58tA9YeoUgsBg​


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-4-7 11:25:25修改
收藏
回复
举报
回复
相关推荐