大模型面经——MLLM中模态对齐有哪些难点?有什么解决方法? 原创

发布于 2025-6-10 10:42
浏览
0收藏

多模态大模型中模态对齐数据构建的难点及解决方案。

多模态大模型相对于LLM的训练难度更高一些,其中很关键的部分在于模态的对齐。

多模态对齐需要把各种模态映射或对齐到token空间中,让图像、语音等多模态信息抽象为token表征,从而利用现有的LLM的技术实现多模态领域的思维链和涌现。

那么本系列开始总结MLLM中多模态对齐的难点以及现有的解决方法,下面是本系列想要包含的内容。

1. 模态对齐的难点总结

  • 模态对齐数据构建
  • 跨模态差异影响融合效果
  • 模态对齐评估效率比较低

2. 现有难点的解决方案

本篇主要来讲述模态对齐的部分。

多模态模型架构与训练方法

在开始前先简单回顾一下多模态模型架构与训练方法~

目前MLLM常见的输入模态包括图像、视频、音频,另外IMU(惯性测量单元,Inertial Measurement Unit)传感器数据以及脑波等生理信号数据也有在尝试接入。

下图是一个可以参考的多模态大模型基本架构。

大模型面经——MLLM中模态对齐有哪些难点?有什么解决方法?-AI.x社区

典型的多模态大模型基本架构(来源:腾讯AI Lab)

目前多模态大模型的训练方法和架构上比较趋同,多采用两段式训练方法,按照一定次序分别训练视觉编码器和语言模型,但最后阶段都会训练到跨模态映射(Q-former或者MLP)的参数。

大模型面经——MLLM中模态对齐有哪些难点?有什么解决方法?-AI.x社区

两段式训练方法(来源:阿里巴巴达摩院)


具体来说:

第一阶段,通过模态对齐预训练,将映射层和模态编码器(Modality 的输出优化映射到联合LLM嵌入空间,进行各模态的对齐。

第二阶段,通过多模态指令调整,模型将系统指令/文本查询与输入多模态上下文相关联。CLIP ViT-L等就是比较典型的特定模态编码器。

可以看到模态对齐确实是非常重要的部分。

数据模态对齐的难点和解决方案

1. 安全性难点

多模态数据对齐需要文本指令、上下文响应,以及非文本模态(如图像/音频)的强关联标注。此外目前新兴的生物信号、传感器信号等数据在建模时也需要考虑,以及标注过程中还需要考虑COT的部分。

目前数据收集过程中需要着重考虑内容相关性和安全性,需要人工介入的环节非常多,因此成本极高且难以规模化。

2. 解决方案简述

可以通过标注或合成的方式构建一部分引导样本,引导生成内容与生成风格,并以目标嵌入的方式替代真实的多模态数据,在MLLM的前向传播过程中引导生成相关引导目标嵌入来进行优化。

3. 具体示例说明

上面的话可能有些抽象,这里推荐一篇ACL2025北航彭浩团队提出的合成嵌入技术SEA(Synthetic Embedding augmented safety Alignment)框架辅助大家理解。

大模型面经——MLLM中模态对齐有哪些难点?有什么解决方法?-AI.x社区

SEA在模态编码器表示空间中优化合成嵌入,替代真实多模态数据;通过梯度更新生成目标嵌入,比如对训练结果有害的相关向量,与文本指令结合构建训练数据集。

主要分为3个阶段,下面简单的进行表述。

大模型面经——MLLM中模态对齐有哪些难点?有什么解决方法?-AI.x社区

1)数据准备

构建一个文本安全对齐数据集

大模型面经——MLLM中模态对齐有哪些难点?有什么解决方法?-AI.x社区

其中x表示有害指令,y是道德响应,对于每个pair构建一个辅助数据集,用于内容控制和风格控制。

内容控制的样本示例

指令:请简要描述图像中的活动(产品)

目标真值:响应前缀 + 答案

风格控制的样本示例

指令:图像的风格是什么?

目标真值:响应前缀 + 风格描述(风格描述要从预定义的风格集合中随机采样)

2)嵌入优化

对于每个pair,准备一个空白图像(或空白视频、静音音频)的嵌入 E0,并将其作为可训练的嵌入进行优化。

优化目标是给定E0,以及内容控制和风格控制的指令,最大化MLLM生成内容控制和风格控制目标样本的概率。优化过程如下:

大模型面经——MLLM中模态对齐有哪些难点?有什么解决方法?-AI.x社区


3)安全性对齐

将优化后的嵌入 Ei与文本数据集 DT结合,构建多模态数据集 

大模型面经——MLLM中模态对齐有哪些难点?有什么解决方法?-AI.x社区


对于每个x,添加一个前缀,如“图像显示一个活动(产品)。请理解它并回答以下问题。”生成 。保留 DT 中的响应。

在安全性对齐训练中,忽略模态编码器 M(⋅),修改MLLM的前向传播过程为

大模型面经——MLLM中模态对齐有哪些难点?有什么解决方法?-AI.x社区

使其适应现有的安全性对齐训练策略。

个人认为这种方法在实践中还是比较实用,目前在图像这个模态中应用的会更多一些;未来积累的这里具备引导性质的Embedding库本身就具备很大的价值。

大佬们有更多见解的话,可以加微信一起多多讨论。

参考文献:

[1]  GPT-4o 实现真正的多模态大一统了吗?技术难度多高? - 知乎(https://www.zhihu.com/question/655951646/answer/3498544864?share_code=SyMNrAHBEGXN&utm_psn=1911120005984163324)

[2] SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings  (https://arxiv.org/pdf/2502.12562)


本文转载自瓦力算法学研所,作者:喜欢瓦力的卷卷


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-6-10 10:42:03修改
1
收藏
回复
举报
回复
相关推荐