中科大&腾讯:通过提升各个专家网络差异性提升基于MoE的CTR预估效果

发布于 2025-6-25 07:49
浏览
0收藏

今天给大家介绍一篇中科大、腾讯联合发表的CTR预估模型优化工作,探索了多专家网络多样性对于模型效果的影响。

中科大&腾讯:通过提升各个专家网络差异性提升基于MoE的CTR预估效果-AI.x社区

论文标题:Enhancing CTR Prediction with De-correlated Expert Networks

下载地址:​​https://arxiv.org/pdf/2505.17925​

1.研究背景

最近两年,随着Scaling Law在各个领域的研究,推荐系统领域也开始逐渐引入这种思想进一步提升模型能力。其中,一种常见的思路是利用MoE扩大参数空间,并结合多种类型的网络结构构建预估模型。

如何才能构建出效果最优的MoE预估模型呢?文中研究发现,各个Expert之间的差异性大小,决定了最终效果的高低。文中定义了不同Expert的不相关度指标,对比了不同不相关度下,模型AUC变化。从图中可以看出,随着各个Expert不相关度的增加,模型的效果是逐渐提升的。

中科大&腾讯:通过提升各个专家网络差异性提升基于MoE的CTR预估效果-AI.x社区

基于上述考虑,文中通过模型结构差异性、正则化loss引入、embedding差异等多个角度,降低各个Expert的相关性,从而提升基于MoE的CTR预估模型的效果。

2.建模方法

下图整体对比了不同MoE的结构图。其中Hetero-MoE是本文的建模方法,其核心是每个Expert有一套单独的Embedding,并且每个Expert使用不同的网络结构,从而最大限度提升不同Expert之间的差异性和抽取信息的多样性。

中科大&腾讯:通过提升各个专家网络差异性提升基于MoE的CTR预估效果-AI.x社区

在具体提升差异性的手段上,文中从底层Embedding、网络结构、正则化损失三个角度进行优化。

对于底层Embedding,文中采用了每个Expert使用一套单独的Embedding的方法,让各个Expert在学习过程中实现Embedding的差异性。

对于模型结构,相比一般的MoE各个Expert采用结构,本文采用了不同结构,每个Expert可以是CrossNet、CIN、基础DNN等不同结构。

中科大&腾讯:通过提升各个专家网络差异性提升基于MoE的CTR预估效果-AI.x社区

对于正则化约束,文中首先定义了各个Expert之间的相关性指标。这里采用的是皮尔逊系数,计算每个Expert多条样本的之间的相关系数,直接作为损失函数引入模型中,公式如下:

中科大&腾讯:通过提升各个专家网络差异性提升基于MoE的CTR预估效果-AI.x社区

在MoE的Gate生成方面,基本沿用了经典MoE的思路,差异在于每个Expert使用对应Embedding生成一个个性化的Gate打分。

中科大&腾讯:通过提升各个专家网络差异性提升基于MoE的CTR预估效果-AI.x社区

3.实验效果

从实验结果来看,不同的增加各个Expert之间差异行的方法,包括Embedding差异、模型结构异构、正则化损失引入等,都能带来模型AUC的提升,说明增强各个Expert之间差异的必要性。

中科大&腾讯:通过提升各个专家网络差异性提升基于MoE的CTR预估效果-AI.x社区

本文转载自​​​​圆圆的算法笔记​​​​,作者:Fareise

收藏
回复
举报
回复
相关推荐