
mmBERT:3万亿词训练出的新一代多语言编码器,速度快 4 倍,还能照顾到冷门语言 原创
还记得 XLM-RoBERTa(XLM-R) 吗?这款模型几乎统治了多语言 NLP 领域长达 6 年,成为搜索、分类、推荐等系统背后的“隐形基石”。但在这段时间里,生成式大模型(ChatGPT、Gemini)成了焦点,编码器似乎被遗忘。
然而,编码器并没有过时,它在嵌入检索、相似度计算、多语言理解等场景里,依旧比解码器更高效。最近,约翰·霍普金斯大学团队发布了 mmBERT,一款基于 3 万亿 Token、覆盖 1833 种语言训练的全新编码器。它不仅超过了 XLM-R,还能和 Google Gemini 2.5 Pro、OpenAI o3 等大模型掰手腕,更重要的是——推理速度快了 2–4 倍。
下面,我们就从架构、训练方法、性能表现和实际意义,拆解这款备受关注的新模型。
为什么需要新的多语言编码器?
在 NLP 的世界里,编码器和解码器的分工不同:
- 解码器(比如 GPT-4)擅长生成内容。
- 编码器(比如 BERT、RoBERTa)则更适合抽取语义、做检索和分类。
但过去几年,研究重点几乎全跑到生成式方向,导致编码器停滞不前。XLM-R 虽然表现强劲,但毕竟是 5 年前的架构,面对长文本、多语言低资源场景,显得力不从心。
这时候,mmBERT 的出现,就像补上了生态的空缺:一款高效、可扩展、对低资源语言更友好的现代化编码器。
mmBERT 的架构亮点
mmBERT 有两个配置版本:
- Base 版:22 层 Transformer,约 3.07 亿参数;
- Small 版:1.4 亿参数,更轻量。
它在架构上做了几处关键升级:
- Gemma 2 分词器:25.6 万词表,更适合多语言。
- RoPE 旋转位置编码:提升长文本处理能力。
- FlashAttention2:计算效率更高。
- 滑动窗口注意力 + 无填充嵌入:序列长度直接扩展到8192 tokens,比 XLM-R 长了近 8 倍。
这意味着,mmBERT 不仅能处理更长的上下文,还能在推理时保持更快速度,在 8192 tokens 上的效率甚至超过旧模型处理 512 tokens 时的速度。
3 万亿 Token 的训练秘诀
mmBERT 的训练分为三阶段:
- 预训练阶段(2.3T Token):60 种语言 + 代码,奠定基础。
- 中期训练(600B Token):扩展到 110 种语言,强调数据质量。
- 衰减阶段(100B Token):覆盖1833 种语言,重点照顾低资源。
数据来源包括 FineWeb2、Dolma、MegaWika v2、StarCoder 等,英文比例仅占 **10–34%**。这点很关键——说明它不是“偏英语”的模型,而是真正的 多语言编码器。
创新的训练策略
研究团队提出了三大新方法:
- 退火式语言学习(ALL)语言数量逐步从 60 → 110 → 1833,采样分布也从高资源语言过渡到更均衡,让冷门语言在后期得到更多权重。
- 反向掩码调度掩码比例从 30% 降到 5%,先让模型学粗粒度语义,再逐渐精细化。
- 模型合并(TIES merging)在衰减阶段训练多个变体(偏英语、110 语言版、1833 语言版),最后合并优势,避免从零再训。
这些方法让 mmBERT 在低资源语言上表现特别突出。
性能对比:全面超越 XLM-R
在各类基准测试中,mmBERT 的表现都很抢眼:
- 英文 NLU(GLUE):86.3(比 XLM-R 的 83.3 高出 3 分,接近 ModernBERT 的 87.4)。
- 多语言理解(XTREME):72.8(XLM-R 仅 70.4)。
- 嵌入任务(MTEB v2):多语言 54.1 分(XLM-R 仅 52.4)。
- 代码检索(CoIR):领先 XLM-R 约 9 分。
尤其是在冷门语言上,mmBERT 在 法罗语(Faroese)、提格利尼亚语(Tigrinya) 等任务上,直接干翻了 OpenAI o3 和 Google Gemini 2.5 Pro。
换句话说,它不是“只会强在英语”,而是真正把 多语言公平性 做了出来。
速度:快 2–4 倍
效率是 mmBERT 的另一大卖点。相比 XLM-R 和 MiniLM,它在相同条件下推理 快 2–4 倍。
更夸张的是:
- 在 8192 tokens 序列时,它依然比旧模型处理 512 tokens 更快。
这意味着在企业检索、搜索引擎、智能客服等场景里,同样的算力能跑出更多请求,大幅降低成本。
多语言 AI 的下一站
从 XLM-R 到 mmBERT,编码器模型沉寂多年后迎来了新的迭代。它的意义不只是“替代老模型”,而是向业界证明:
- 编码器依然有价值;
- 多语言训练完全可以突破“英语中心化”;
- 高效推理才是落地应用的关键。
未来,我们或许会看到 mmBERT + RAG 检索增强生成 的组合,既高效又能覆盖多语言,成为企业私有化部署的首选。
本文转载自Halo咯咯 作者:基咯咯
