鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

mmBERT：3万亿词训练出的新一代多语言编码器，速度快 4 倍，还能照顾到冷门语言原创

发布于 2025-10-9 07:25

浏览

0收藏

还记得 XLM-RoBERTa（XLM-R）吗？这款模型几乎统治了多语言 NLP 领域长达 6 年，成为搜索、分类、推荐等系统背后的“隐形基石”。但在这段时间里，生成式大模型（ChatGPT、Gemini）成了焦点，编码器似乎被遗忘。

然而，编码器并没有过时，它在嵌入检索、相似度计算、多语言理解等场景里，依旧比解码器更高效。最近，约翰·霍普金斯大学团队发布了 mmBERT，一款基于 3 万亿 Token、覆盖 1833 种语言训练的全新编码器。它不仅超过了 XLM-R，还能和 Google Gemini 2.5 Pro、OpenAI o3 等大模型掰手腕，更重要的是——推理速度快了 2–4 倍。

下面，我们就从架构、训练方法、性能表现和实际意义，拆解这款备受关注的新模型。

为什么需要新的多语言编码器？

在 NLP 的世界里，编码器和解码器的分工不同：

解码器（比如 GPT-4）擅长生成内容。
编码器（比如 BERT、RoBERTa）则更适合抽取语义、做检索和分类。

但过去几年，研究重点几乎全跑到生成式方向，导致编码器停滞不前。XLM-R 虽然表现强劲，但毕竟是 5 年前的架构，面对长文本、多语言低资源场景，显得力不从心。

这时候，mmBERT 的出现，就像补上了生态的空缺：一款高效、可扩展、对低资源语言更友好的现代化编码器。

mmBERT 的架构亮点

mmBERT 有两个配置版本：

Base 版：22 层 Transformer，约 3.07 亿参数；
Small 版：1.4 亿参数，更轻量。

它在架构上做了几处关键升级：

Gemma 2 分词器：25.6 万词表，更适合多语言。
RoPE 旋转位置编码：提升长文本处理能力。
FlashAttention2：计算效率更高。
滑动窗口注意力 + 无填充嵌入：序列长度直接扩展到8192 tokens，比 XLM-R 长了近 8 倍。

这意味着，mmBERT 不仅能处理更长的上下文，还能在推理时保持更快速度，在 8192 tokens 上的效率甚至超过旧模型处理 512 tokens 时的速度。

3 万亿 Token 的训练秘诀

mmBERT 的训练分为三阶段：

预训练阶段（2.3T Token）：60 种语言 + 代码，奠定基础。
中期训练（600B Token）：扩展到 110 种语言，强调数据质量。
衰减阶段（100B Token）：覆盖1833 种语言，重点照顾低资源。

mmBERT：3万亿词训练出的新一代多语言编码器，速度快 4 倍，还能照顾到冷门语言-AI.x社区

数据来源包括 FineWeb2、Dolma、MegaWika v2、StarCoder 等，英文比例仅占 **10–34%**。这点很关键——说明它不是“偏英语”的模型，而是真正的 多语言编码器。

创新的训练策略

研究团队提出了三大新方法：

退火式语言学习（ALL）语言数量逐步从 60 → 110 → 1833，采样分布也从高资源语言过渡到更均衡，让冷门语言在后期得到更多权重。
反向掩码调度掩码比例从 30% 降到 5%，先让模型学粗粒度语义，再逐渐精细化。
模型合并（TIES merging）在衰减阶段训练多个变体（偏英语、110 语言版、1833 语言版），最后合并优势，避免从零再训。

mmBERT：3万亿词训练出的新一代多语言编码器，速度快 4 倍，还能照顾到冷门语言-AI.x社区

这些方法让 mmBERT 在低资源语言上表现特别突出。

性能对比：全面超越 XLM-R

在各类基准测试中，mmBERT 的表现都很抢眼：

英文 NLU（GLUE）：86.3（比 XLM-R 的 83.3 高出 3 分，接近 ModernBERT 的 87.4）。
多语言理解（XTREME）：72.8（XLM-R 仅 70.4）。
嵌入任务（MTEB v2）：多语言 54.1 分（XLM-R 仅 52.4）。
代码检索（CoIR）：领先 XLM-R 约 9 分。

尤其是在冷门语言上，mmBERT 在 法罗语（Faroese）、提格利尼亚语（Tigrinya） 等任务上，直接干翻了 OpenAI o3 和 Google Gemini 2.5 Pro。

mmBERT：3万亿词训练出的新一代多语言编码器，速度快 4 倍，还能照顾到冷门语言-AI.x社区

换句话说，它不是“只会强在英语”，而是真正把 多语言公平性 做了出来。

速度：快 2–4 倍

效率是 mmBERT 的另一大卖点。相比 XLM-R 和 MiniLM，它在相同条件下推理 快 2–4 倍。

更夸张的是：

在 8192 tokens 序列时，它依然比旧模型处理 512 tokens 更快。

这意味着在企业检索、搜索引擎、智能客服等场景里，同样的算力能跑出更多请求，大幅降低成本。

多语言 AI 的下一站

从 XLM-R 到 mmBERT，编码器模型沉寂多年后迎来了新的迭代。它的意义不只是“替代老模型”，而是向业界证明：

编码器依然有价值；
多语言训练完全可以突破“英语中心化”；
高效推理才是落地应用的关键。

未来，我们或许会看到 mmBERT + RAG 检索增强生成 的组合，既高效又能覆盖多语言，成为企业私有化部署的首选。

本文转载自Halo咯咯作者：基咯咯

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

多语言编码器

赞

收藏

回复

举报

热门内容榜 • 最近上榜

回复

相关推荐

极长序列、极快速度：面向新一代高效大语言模型的LASP序列并行

轻薄滴假象 • 3353浏览 • 0回复
10倍速度突破质量瓶颈，效果超越Gen-2和Pika！T2V-Turbo：新一代视频生成模型

angel • 4525浏览 • 0回复
YOLOv9：深度解析新一代实时目标检测王者

sword_hero • 7537浏览 • 0回复
俯视LLM的灵魂：一文搞懂稀疏自动编码器

鲁班模锤1 • 7180浏览 • 0回复
微软重磅开源 GraphRAG：新一代 RAG 技术来了！

玄姐聊AGI • 7315浏览 • 0回复
Zyphra发布Zamba2-7B：新一代高性能小型语言模型

Halo咯咯 • 3620浏览 • 0回复
多语言提示技术：跨越语言障碍的AI应用

芝士AI吃鱼 • 4423浏览 • 0回复
Meta AI 开源 Llama 3.3：全新 70B 多语言大语言模型 (LLM)

Halo咯咯 • 4571浏览 • 0回复
大规模情感分析：将NLP应用于多语言和特定领域的文本

51CTO内容精选 • 3228浏览 • 0回复
Transformer编码器与解码器和神经网络之间的关系

AI探索时代 • 3537浏览 • 0回复
寻找乐子人｜ “多语言、精准定位”上海导游智能体搭建方案

Wordsworth_Jin • 3726浏览 • 2回复
深入探究编码器 - 解码器架构：从RNN到Transformer的自然语言处理模型

AI论文解读 • 9951浏览 • 0回复
别搞 GraphRAG 了，拥抱新一代 RAG 范式 DeepSearcher

玄姐聊AGI • 4181浏览 • 0回复
修得快，还修得准！新一代视频修复技术FloED性能超越所有扩散模型! | 港科大&达摩院

angel • 2521浏览 • 0回复
在线教程｜支持 19 种语言，生成速度快 15 倍！ACE-Step 音乐生成模型上线

HyperAI超神经 • 3402浏览 • 0回复
突破多语言视觉-语言模型的全球化之路

鲁班模锤1 • 1204浏览 • 0回复
ICCV`25 | 把DragDiffusion“卷”哭了：速度快600倍，效果更精准！港大开源Inpaint4Drag

zhangyannni • 719浏览 • 0回复
提速30倍，Meta重新定义了新一代RAG！

PaperAgent • 1209浏览 • 0回复
Apertus：瑞士首个开源大模型，多语言支持，合规训练，高效性能

穿越时空111 • 2027浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

代码已不再稀缺，开发者正在进入“工作流时代” 11h前发布
n8n能取代DevOps吗？别急，先听听真实答案 12h前发布

热门推荐

2025年五大本地大模型，程序员必看！ 0回复

AI硬件如何助力人工智能？一文读懂CPU、GPU、NPU、TPU的区别与应用 0回复

Google 发布 TimesFM-2.5：更小、更强、更长上下文的时间序列基础模型 0回复

Qwen3-Max：阿里巴巴的万亿参数模型，真正意义上的“思考模式”来了 0回复

阿里开源 Tongyi DeepResearch：科研智能体能力首次追平 OpenAI 0回复

上一篇： Qwen3-Max：阿里巴巴的万亿参数模型，真正意义上的“思考模式”来了

下一篇：微软开源 VibeVoice-1.5B：90分钟多角色语音合成，让TTS进入“长音频时代”

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载