Qwen3 Embedding模型架构、训练方法、数据策略 原创

发布于 2025-6-23 06:41
浏览
0收藏

Embedding和reranker模型的核心思想是通过任务感知的方式评估相关性。给定一个查询和一个文档,模型根据由指令定义的相似性标准评估它们的相关性。

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区

下面来详细的看下Qwen3 Embedding模型架构、训练方法、数据策略,供参考。

模型架构

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区

Qwen3 Embedding、reranker模型架构

Qwen3嵌入和重排序模型基于Qwen3基础模型的dense backbone,提供三种参数规模:0.6B、4B和8B。这些模型通过初始化Qwen3基础模型来利用其在文本建模和指令遵循方面的能力。每个模型配置的层数、隐藏层大小和上下文长度如下表:

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区

  • Embedding模型

对于文本嵌入,使用具有因果注意力的LLMs,并在输入序列的末尾添加一个[EOS]标记。最终的嵌入是从对应于这个[EOS]标记的最后一层的隐藏状态中提取的。没有额外池化头,推理路径更短。

为了确保嵌入在下游任务中遵循指令,将指令和查询连接成一个单一的输入上下文,而文档保持不变,然后通过LLMs进行处理。Query的输入格式如下:

{Instruction}{Query}
  • Reranker模型

为了更准确地评估文本相似性,使用LLMs在单个上下文中进行点对点重排序。与嵌入模型类似,为了实现指令遵循能力,将指令包含在输入上下文中。使用LLM聊天模板,并将相似性评估任务框定为一个二分类问题。输入到LLMs的模板如下:

<|im_start|>system
Judge whether the Document meets the requirements based on the Query and the Instruct provided. Note that the answer can only be"yes" or
"no".<|im_end|>
<|im_start|>user
<Instruct>:{Instruction}
<Query>:{Query}
<Document>:{Document}<|im_end|>
<lim_start|>assistant
<think>\n\n</think>\n\n

为了基于给定输入计算相关性分数,视为二分类任务,评估下一个标记是"yes"或"no"的可能性。表示为:

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区

训练方法

Qwen3 Embedding训练过程采用了多阶段训练pipline,结合了大规模无监督预训练和高质量数据集上的监督微调。

1、训练目标

Embedding模型:对于嵌入模型,使用了基于InfoNCE框架的改进对比损失。给定一批N个训练实例,损失定义为:

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区


Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区


其中,Sij是qi,dj或qi,qj的相应分数。

  • Re-Rank模型:优化了基于监督微调(SFT)的损失,定义为:

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区

2、多阶段训练

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区

多阶段训练是训练文本嵌入模型的常见做法,通常从大规模半监督数据上的初始训练开始,然后使用较小规模的高质量监督数据集进行微调。这一两步过程增强了模型的性能和泛化能力。大规模弱监督训练数据显著提高了模型的泛化能力,而后续阶段的高质量数据微调进一步提升了模型性能。

在现有多阶段训练框架的基础上,Qwen3 Embedding系列引入了以下关键创新:

  • 大规模合成数据驱动的弱监督训练:与之前的工作(如GTE、E5、BGE模型)不同,这些模型主要从开源社区(如问答论坛或学术论文)收集弱监督训练数据,提出利用基础模型的文本理解和生成能力直接合成配对数据。这种方法允许任意定义所需配对数据的各种维度,如任务、语言、长度和难度,并在合成提示中进行定义。与从开放域源收集数据相比,基础模型驱动的数据合成提供了更大的可控性,能够精确管理生成数据的质量和多样性,特别是在低资源场景和语言中。
  • 高质量合成数据在监督微调中的利用:由于Qwen3基础模型的卓越性能,合成的数据质量非常高。因此,在监督训练的第二阶段,选择性地整合这些高质量合成数据进一步增强了整体模型性能和泛化能力。
  • 模型合并:受到先前工作的启发,在完成监督微调后,应用了基于球面线性插值(slerp)的模型合并技术。该技术涉及合并微调过程中保存的多个模型检查点。目的是提高模型在各种数据分布上的鲁棒性和泛化性能。

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区

注意,重排序模型的训练过程不包括第一阶段的弱监督训练阶段。

3、合成数据集

使用Qwen3-32B模型作为基础模型进行数据合成,创建了大约1.5亿对多任务弱监督训练数据。实验发现,使用合成数据训练的嵌入模型在下游评估中表现优异,特别是在MTEB多语言基准测试中超越了许多先前监督模型。这促使对合成数据进行过滤,以识别高质量配对,用于第二阶段的监督训练。采用简单的余弦相似性计算来选择数据对保留随机采样数据中余弦相似性大于0.7的对。最后大约1200万对高质量监督训练数据对被选中进行进一步训练。

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区

实验性能

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区

MTEB多语言

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区

MTEB英文

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区

Qwen3 Embedding模型架构、训练方法、数据策略-AI.x社区


Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models,https://github.com/QwenLM/Qwen3-Embedding/blob/main/qwen3_embedding_technical_report.pdfcode:https://github.com/QwenLM/Qwen3-Embedding


本文转载自​大模型自然语言处理​   作者:余俊晖

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-6-23 06:41:29修改
收藏
回复
举报
回复
相关推荐