
多语言检索新突破!Qwen3-Embedding与Qwen3-Reranker开启信息检索新篇章 原创
在当今信息爆炸的时代,文本嵌入(Text Embedding)和重排(Reranking)已经成为现代信息检索系统的核心技术。无论是语义搜索、推荐系统,还是检索增强生成(Retrieval-Augmented Generation, RAG),都离不开它们的身影。然而,现有的技术方案往往面临着诸多挑战,尤其是在多语言支持和任务适应性方面,常常需要依赖昂贵且封闭的商业API,而开源模型又往往在规模和灵活性上有所欠缺。
但就在最近,阿里巴巴的Qwen团队带来了好消息!他们推出了Qwen3-Embedding和Qwen3-Reranker系列模型,这不仅为开源领域树立了新的标杆,更是为多语言文本嵌入和相关性排序带来了全新的解决方案。
Qwen3系列:多语言与任务适应性的新标杆
Qwen3-Embedding和Qwen3-Reranker系列模型基于Qwen3基础模型构建,涵盖了0.6B、4B和8B三种不同参数规模的变体,支持多达119种语言,堪称目前最灵活、性能最强的开源方案之一。这些模型已经在Hugging Face、GitHub和ModelScope上开源,并可通过阿里云API获取,为开发者提供了极大的便利。
这些模型不仅在语义检索、分类、RAG、情感分析和代码搜索等应用场景中表现出色,还为现有的解决方案(如Gemini Embedding和OpenAI的嵌入API)提供了强大的替代选择。
技术架构:深度优化与创新
Qwen3-Embedding模型采用了基于密集Transformer的架构,并引入了因果注意力机制。通过提取与[EOS]标记对应的隐藏状态来生成嵌入向量。其中,指令感知(Instruction-awareness)是其核心特性之一:输入查询被格式化为“{指令} {查询}<|endoftext|>”,从而实现任务条件化的嵌入。
而Qwen3-Reranker模型则通过二元分类格式进行训练,利用基于标记似然的评分函数,在指令引导下判断文档与查询的相关性。
这些模型的训练过程采用了强大的多阶段训练流程:
- 大规模弱监督:利用Qwen3-32B生成了1.5亿对合成训练样本,覆盖了跨语言和任务的检索、分类、语义文本相似性(STS)以及双语挖掘等多种场景。
- 监督式微调:从余弦相似度大于0.7的数据对中筛选出1200万对高质量数据,用于微调下游应用中的性能。
- 模型融合:通过球面线性插值(SLERP)对多个微调后的检查点进行融合,确保模型的鲁棒性和泛化能力。
这种合成数据生成流程不仅能够控制数据质量、语言多样性、任务难度等关键因素,还能在低资源场景下实现高覆盖率和相关性。
性能表现:多语言基准测试中的卓越成绩
Qwen3-Embedding和Qwen3-Reranker系列在多个多语言基准测试中展现了强大的性能表现。
- 在MMTEB(涵盖250多种语言的216项任务)中,Qwen3-Embedding-8B的平均任务得分为70.58,超越了Gemini和GTE-Qwen2系列。
- 在MTEB(英语v2)中,Qwen3-Embedding-8B达到了75.22分,超越了其他开源模型,包括NV-Embed-v2和GritLM-7B。
- 在MTEB-Code中,Qwen3-Embedding-8B以80.68分领先,尤其在代码检索和Stack Overflow问答等应用场景中表现出色。
在重排任务方面:
- Qwen3-Reranker-0.6B已经超越了Jina和BGE重排器。
- Qwen3-Reranker-8B在MTEB-Code上达到了81.22分,在MMTEB-R上达到了72.94分,达到了最先进的性能水平。
消融研究进一步证实了每个训练阶段的必要性。移除合成预训练或模型融合会导致性能显著下降(在MMTEB上最多下降6分),这凸显了这些训练阶段的重要贡献。
结语:开源的力量与未来的无限可能
阿里巴巴的Qwen3-Embedding和Qwen3-Reranker系列模型为多语言和指令感知的语义表示提供了一个强大、开放且可扩展的解决方案。凭借在MTEB、MMTEB和MTEB-Code上的出色表现,这些模型成功地弥合了专有API与开源可访问性之间的差距。其精心设计的训练流程——利用高质量合成数据、指令微调和模型融合——使它们成为企业搜索、检索和RAG流程的理想选择。
通过开源这些模型,Qwen团队不仅推动了语言理解的边界,还为更广泛的社区提供了一个坚实的基础,激发了更多创新的可能性。无论是开发者、研究人员还是企业用户,都可以借助Qwen3系列模型,在多语言信息检索的道路上迈出坚实的步伐。
本文转载自Halo咯咯 作者:基咯咯
