鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

腾讯屠榜MTEB，嵌入模型告别BERT，拥抱LLM

发布于 2025-4-25 06:47

浏览

0收藏

训练一个好的向量模型的重点在于最大限度地利用了更多、更高质量的负样本，来训练模型。
腾讯提出的Conan-embedding，采用了动态硬负样本挖掘方法，以便在整个训练过程中向模型展示更多具有挑战性的负样本。
最近发布Conan-embedding-V2版本，在MTEB榜单上已经超越了BGE等一众传统豪强。

腾讯屠榜MTEB，嵌入模型告别BERT，拥抱LLM-AI.x社区

支持中、英双语

腾讯屠榜MTEB，嵌入模型告别BERT，拥抱LLM-AI.x社区

腾讯屠榜MTEB，嵌入模型告别BERT，拥抱LLM-AI.x社区

一、Conan-embedding-V2

V1版本主要基于通用预训练的双向Bert模型进行Embedding任务的训练。
V2版本从头训练了原创词表和模型结构的大模型基座——Conan-1.4B，在此基础上进行了中、英、多语言的Embedding任务的训练。
上下文长度从v1版本的512，提升到了32k。

腾讯屠榜MTEB，嵌入模型告别BERT，拥抱LLM-AI.x社区

训练的4个阶段

第1和第2阶段，大语言模型（LLM）训练阶段

加入嵌入数据，以更好地使LLM与嵌入任务对齐

设计了Conan-1.4B，包含8层Attention Layers，Hidden Size为3584，最长上下文32k。

参数量是1.4B，能够在较少的参数下提供更大的Embedding维度。

从基础的字母、符号上，在约40万条多语言语料上训练了Conan的BBPE分词器，目标词表大小15万，完成了词表训练。

第3阶段，弱监督训练阶段

使用与LLM监督微调（SFT）相同的配对数据，并应用软掩码来弥合LLM与嵌入模型之间的差距。

使用gte-Qwen2-7B-instruct模型进行评分，并丢弃得分低于0.4的数据

训练中采用了InfoNCE损失函数，并结合In-Batch Negative采样

第4阶段，监督训练阶段

引入了跨语言检索数据集和动态硬负例挖掘方法，以提高数据的多样性和价值

针对不同的下游任务进行任务特定的微调。

将任务分为四类：检索、跨语言检索、分类和语义文本相似度（STS）。

前三类任务：包括一个查询、一个正例文本和一些负例文本，使用经典的InfoNCE损失函数。

STS任务涉及区分两个文本之间的相似度，采用CoSENT损失来优化。

为了更好的对比Conan-embedding提升了哪些内容，下面也简单介绍一下Conan-embeddingV1，尤其注意一下难例数据挖掘的方法，v2版本也是用同样的方法

二、Conan-embeddingV1

腾讯屠榜MTEB，嵌入模型告别BERT，拥抱LLM-AI.x社区

总共分为：预训练和微调两个阶段

2.1 预训练阶段

筛选数据：bge-large-zh-v1.5模型评分，丢弃所有得分低于 0.4 的数据。
使用带批内负样本的 InfoNCE 损失进行训练，它利用小批量内的其他样本作为负样本优化模型。
即，在每个小批量中，除了目标样本的正样本对之外的所有样本都被视为负样本。
通过最大化正样本对的相似性并最小化负样本对的相似性，批内负样本 InfoNCE 损失可以有效地提高模型的判别能力和表示学习性能。
此方法通过充分利用小批量内的样本，提高了训练效率，减少了生成额外负样本的需求。

腾讯屠榜MTEB，嵌入模型告别BERT，拥抱LLM-AI.x社区

腾讯屠榜MTEB，嵌入模型告别BERT，拥抱LLM-AI.x社区

2.2 监督微调

监督微调时对不同的下游任务执行特定的微调任务。将任务分为两类：

检索任务：

包括查询、正文本和负文本，经典的损失函数是 InfoNCE 损失。

STS 任务：

涉及区分两个文本之间的相似性，经典的损失函数是交叉熵损失。

CoSENT 损失略优于交叉熵损失，因此采用 CoSENT 损失来优化 STS 任务。

腾讯屠榜MTEB，嵌入模型告别BERT，拥抱LLM-AI.x社区

腾讯屠榜MTEB，嵌入模型告别BERT，拥抱LLM-AI.x社区

三、难例数据挖掘

一种动态难样本挖掘方法介绍：

对于每个数据点，记录当前相对于查询的难样本的平均分数。
每 100 次迭代，如果分数乘以 1.15 小于初始分数，并且分数的绝对值小于 0.8，将认为负样本不再困难，并进行新一轮的难样本挖掘。
在每次动态困难负例挖掘过程中，如果需要替换困难负例，使用 (i-1)\times n + 10到i\times n +10 的案例作为负例，其中 i表示第 i次替换，而 n表示每次使用的困难负例数量。

腾讯屠榜MTEB，嵌入模型告别BERT，拥抱LLM-AI.x社区

上图展示了动态困难负例挖掘与标准困难负例挖掘中正例和负例的得分-步数曲线
随着步骤的增加，标准困难负例挖掘中负例的得分停止下降并开始振荡，表明模型已经完成了从该批负例中学习。
相反，动态困难负例挖掘一旦检测到负例不再对模型构成挑战，就会替换这些困难负例。

https://arxiv.org/pdf/2408.15710
https://huggingface.co/TencentBAC/Conan-embedding-v2
https://zhuanlan.zhihu.com/p/1897675709696149020

本文转载自CourseAI，作者：CourseAI

标签

已于2025-4-25 10:09:37修改

赞

收藏

回复

举报

回复

相关推荐

使用BERT的LLM提取摘要

51CTO内容精选 • 3570浏览 • 0回复
腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源

轻薄滴假象 • 4218浏览 • 0回复
如何将大型语言模型（LLM）转换为嵌入模型

51CTO内容精选 • 3497浏览 • 0回复
The Annotated BERT注释加量版，读懂代码才算读懂了BERT

鱼虫子 • 3159浏览 • 0回复
OpenAI最新套娃嵌入模型分析：256维的MTEB效果超过1536维

PaperAgent • 6322浏览 • 0回复
从零实现大模型-BERT微调

鱼虫子 • 3728浏览 • 0回复
最强大模型统计网站，从此告别LLM选择恐惧症！

鱼虫子 • 3586浏览 • 0回复
BERT如何增强NLP的性能

51CTO内容精选 • 2673浏览 • 0回复
OpenAI文本嵌入模型入门指南

51CTO内容精选 • 4137浏览 • 0回复
NLP范式总结 | 拥抱新范式

zhcs333 • 2565浏览 • 0回复
2025年，拥抱AI Agent！

探索AGI • 3145浏览 • 0回复
大模型语义分析之嵌入(Embedding)模型

AI探索时代 • 3874浏览 • 0回复
Meta公布BLT新架构：告别token，拥抱patch

51CTO内容精选 • 2321浏览 • 0回复
腾讯元宝登顶下载榜，AI 下一战拼什么？

算家计算 • 2417浏览 • 0回复
深度解析理解 Transformer 中的3大位置嵌入：从绝对位置嵌入到旋转位置嵌入

智驻未来 • 4046浏览 • 0回复
告别粗糙AI生成！BlobCtrl带你玩转元素级视觉编辑，效果炸裂！(北大&港中文&腾讯)

angel • 2006浏览 • 0回复
OpenAI也妥协了，全面拥抱MCP!

探索AGI • 2485浏览 • 0回复
AI大语言模型（LLM）幻觉排行榜

AI取经路 • 4364浏览 • 0回复
字节屠榜！最强多模态大模型发布：20 B参数横扫38项第一！

算家计算 • 1480浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

8种LLM架构设计大比拼：从 DeepSeek-V3 到 Kimi K2，究竟有啥不同 2025-07-23 07:43:44发布
3.4K星Apple出品FastVLM：视觉TTFT效率提升85倍，凭啥这么牛！ 2025-07-23 07:29:27发布

热门推荐

国产视频大模型突破！阿里最新开源Wan2.2，单卡生成电影级画面 1回复

RAG：7个检索增强生成技术的解析（含实现代码） 0回复

2025 年国产大模型淘汰赛：DeepSeek、阿里、字节跳动、清华智谱谁将称王？ 0回复

2025智能体大爆发！云计算驱动万亿级市场革命 0回复

六大智能体平台深度对比：从技术架构到行业落地，一篇讲透选型关键 0回复

上一篇： Adobe首发多Agent、跨模态框架MDocAgent：复杂文档理解性能爆炸12%，错误率直降21%

下一篇： Qwen3 低成本手撕Search-R1的强化学习训练框架

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载