多模态学习新突破:自适应掩码子网络解决模态不平衡问题

发布于 2025-8-25 01:21
浏览
0收藏

多模态学习一直是研究热点,它通过整合来自不同模态的信息来提升模型性能。然而,在实际应用中,多模态学习常常面临一个棘手的问题—— 模态不平衡,导致模型过度依赖主导模态而忽视其他模态,限制了整体效果。

一、技术背景:多模态学习的挑战

多模态学习旨在通过统一不同模态的模型来增强性能。在现实世界中,对象通常可以通过多种模态来表征。例如,在动作识别任务中,可以整合视频、音频和运动传感器数据来识别人类动作;在文章分类任务中,可以综合内容和图像进行预测。

然而,多模态学习中的"模态不平衡"问题一直困扰着研究人员。这种现象表现为在训练过程中存在一个主导模态和一个非主导模态,由于模型固有的贪婪性,模型更新过度倾向于主导模态,而忽视了对非主导模态的学习。结果,非主导模态的学习速度严重滞后,导致多模态学习的性能甚至不如单模态学习。

如图1所示,传统的全局更新机制(Global-wise)在反向传播过程中对所有参数的梯度应用均匀调制,忽略了不同参数的重要性差异。这导致了模态间的不平衡问题。

不同梯度调制的对比

为了解决这一问题,现有方法通常采用模态级控制机制来调整每个模态参数的更新。然而,这种全局更新机制忽略了每个参数的不同重要性,效果有限。

二、创新方法:自适应掩码子网络(AMSS)

受子网络优化的启发,研究人员探索了一种基于均匀采样的优化策略,发现它比全局更新机制更有效。基于这一发现,他们提出了一种新颖的基于重要性采样的元素级联合优化方法,称为考虑模态显著性的自适应掩码子网络(Adaptively Mask Subnetworks Considering Modal Significance,AMSS)

2.1 核心思想

AMSS的核心思想是通过自适应掩码不同模态的子网络来重新平衡多模态学习。具体来说,该方法首先通过互信息率确定模态显著性,然后基于模态显著性使用非均匀自适应采样从每个模态中选择前景子网络进行参数更新,从而重新平衡多模态学习。

与传统的全局更新机制不同,AMSS采用元素级更新机制,在反向传播过程中对参数梯度进行差分调制,而不是对整个模态应用统一的缩放因子。

2.2 技术细节

AMSS方法主要包括两个关键部分:参数数量掩码任务引导的参数掩码准则

2.2.1 参数数量掩码

为了确定每个模态需要选择多少参数,AMSS引入了互信息率来评估模态显著性:

多模态学习新突破:自适应掩码子网络解决模态不平衡问题-AI.x社区

2.2.2 任务引导的参数掩码准则

为了确定选择哪些参数,AMSS采用Fisher信息估计作为选择准则。Fisher信息可以提供一个随机变量携带关于分布参数的信息量的估计,并衡量参数的相对重要性。

第j个参数的Fisher信息可以表示为:

多模态学习新突破:自适应掩码子网络解决模态不平衡问题-AI.x社区

2.3 AMSS+:基于无偏估计的改进版本

为了进一步提高性能,研究人员提出了基于无偏估计的改进版本**AMSS+**。AMSS+使用不同的掩码策略:

多模态学习新突破:自适应掩码子网络解决模态不平衡问题-AI.x社区


多模态学习新突破:自适应掩码子网络解决模态不平衡问题-AI.x社区

AMSS策略的整体框架

三、实验结果:全面验证有效性

研究人员在多个数据集上验证了AMSS和AMSS+的有效性,包括Kinetics-Sound、CREMA-D、Sarcasm-Detection、Twitter-15和NVGesture等。

3.1 主要实验结果

表1展示了不同梯度调制策略和强度下多模态联合训练模型的性能评估。结果表明,在大多数情况下,元素级调制策略优于全局调制策略,甚至在某些情况下超过了当前最先进方法的性能。


多模态学习新突破:自适应掩码子网络解决模态不平衡问题-AI.x社区

表2展示了AMSS与其他最先进方法在四个数据集上的比较结果。从结果可以观察到:

  1. 在Twitter-15和NVGesture数据集上,最佳单模态性能超过了多模态联合学习。在其他数据集上,没有重新平衡的融合方法相比最佳单模态性能提升有限,特别是在CREMA-D和Sarcasm-Detection数据集上。
  2. 所有模态重新平衡方法相比传统的特征连接融合都有显著提升,这不仅突显了不平衡现象对性能的影响,也证实了模态重新平衡策略的有效性。
  3. AMSS/AMSS+在所有指标上始终优于其他比较方法。在Kinetics-Sound/CREMA-D上,AMSS+的性能相比第二好的方法和Concat分别提高了5.15%/2.96%和7.70%/6.99%。
  4. 与仅限于两种模态场景的模态重新平衡方法(如OGM-GE和Greedy)不同,AMSS可以解决涉及多种模态场景的挑战。在NVGesture数据集评估中,AMSS+始终优于其他为多种模态设计的方法。

多模态学习新突破:自适应掩码子网络解决模态不平衡问题-AI.x社区

3.2 复杂Transformer架构中的表现

为了评估AMSS/AMSS+方法在统一多模态Transformer架构中的有效性,研究人员在基于Transformer的融合架构(MBT)上进行了实验。表4的结果显示:

  1. 与CNN架构相比,模态不平衡方法在此架构上的效果有限。在复杂的跨模态交互场景中,某些模态不平衡方法甚至无效。
  2. 无论采用CNN架构还是复杂的多模态Transformer架构,AMSS+策略在几乎所有指标上都保持了优越性能,展示了该方法出色的适应性。
  3. 无论模型是否预训练,都不影响AMSS+的性能,这种灵活性使得该方法可以无缝应用于各种场景。多模态学习新突破:自适应掩码子网络解决模态不平衡问题-AI.x社区

基于Transformer架构的实验结果

3.3 不同融合策略的探索

研究人员还探索了将AMSS/AMSS+与各种融合技术结合的效果。表5的结果显示,无论是与特征级还是预测级融合方法结合,AMSS/AMSS+都能显著提升其性能,突显了AMSS策略在增强各种融合策略能力并缓解不同融合策略下模态不平衡问题方面的有效性。


多模态学习新突破:自适应掩码子网络解决模态不平衡问题-AI.x社区

不同融合方法与AMSS结合的结果

四、结论与意义

这项研究提出了一种创新的多模态学习方法——自适应掩码子网络(AMSS),通过元素级而非模态级的更新机制来解决多模态学习中的模态不平衡问题。研究的主要贡献包括:

  1. 首次在多模态学习中采用元素级更新机制,通过AMSS方法精细刺激非主导模态,缓解主导模态的抑制。
  2. 通过理论分析展示了子网络更新策略在不平衡多模态学习中的有效性,并基于理论发现提出了基于无偏估计的新掩码策略AMSS+。
  3. 在各种模态场景中进行了大量实验,清晰地证明了精细子网络优化在实现多模态网络平衡学习方面的有效性

这项研究为解决多模态学习中的模态不平衡问题提供了新思路,其创新的元素级更新机制和基于无偏估计的改进版本AMSS+在多个数据集和架构上都表现出色,具有重要的理论意义和应用价值。未来,这一方法有望在更广泛的多模态学习任务中发挥作用,推动多模态学习技术的进一步发展。

本文转载自​​AIGC深一度​,作者:一度

收藏
回复
举报
回复
相关推荐