MSCI:解决 CLIP 在组合式零样本学习中的固有局限性 原创

发布于 2025-5-21 06:45
浏览
0收藏

摘要 

组合式零样本学习(CZSL)旨在通过利用已知组合来识别未见的状态 - 对象组合。现有研究基本依赖 CLIP 的跨模态对齐能力,但往往忽略了其在捕捉细粒度局部特征方面的局限性,这些局限性源于其架构和训练范式。为解决这一问题,我们提出了一种多阶段跨模态交互(MSCI)模型,该模型有效探索和利用 CLIP 视觉编码器的中间层信息。具体而言,我们设计了两个自适应聚合器,分别从低层视觉特征中提取局部信息和从高层视觉特征中整合全局信息。这些关键信息通过分阶段交互机制逐步融入文本表示,显著增强了模型对细粒度局部视觉信息的感知能力。此外,MSCI 根据不同的组合以及同一组合内的不同元素,动态调整全局和局部视觉信息之间的注意力权重,使其能够灵活适应各种场景。在三个广泛使用的数据集上的实验充分验证了所提出模型的有效性和优越性。数据和代码可在​​https://github.com/ltpwy/MSCI​​获取。 

1、引言 

组合式零样本学习(CZSL)[Misra 等人,2017] 旨在策略性地分解和重组已见组合(由状态和对象组成,如 “高楼” 或 “绿树”)的视觉表示,以构建新组合类(如 “高树”)的表示,从而实现对它们的精确识别。 

在 CZSL 的早期研究中,更多关注的是如何有效整合和利用现有视觉信息来识别未见类别。一些方法将状态 - 对象对视为单个实体,直接学习它们与图像的兼容性特征表示 [Purushwalkam 等人,2019;Naeem 等人,2021]。此外,研究 [Nagarajan 和 Grauman,2018;Nan 等人,2019] 尝试通过空间嵌入技术显式分离属性和对象,以优化它们的组合过程。然而,由于缺乏统一的特征空间和有效的属性 - 对象解耦建模,这些方法在跨模态对齐方面存在困难,显著限制了模型的性能。 


MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区

图 1:我们工作的核心思想。通过有效利用视觉编码器低层特征中丰富的局部细节,可以增强 CLIP 捕捉细粒度局部信息的能力。

CLIP [Radford 等人,2021] 的发明有效解决了跨模态对齐的挑战。利用大规模预训练数据和对比学习策略,CLIP 展示了强大的跨模态对齐能力,这导致了许多将 CLIP 应用于下游 CZSL 任务的方法的出现。Zhou 等人 [Zhou 等人,2022] 首次将 CLIP 与提示工程相结合,提出了一种单路径联合训练范式,其中 CLIP 生成的状态 - 对象对的文本嵌入被用作参数,并在反向传播过程中进行更新。Nayak 等人 [Nayak 等人,2022] 通过引入可调节的词汇标记以组合方式表示原始概念,进一步改进了这种方法。Huang 等人 [Huang 等人,2024] 提出了一种创新的多路径范式,训练解耦器来解耦视觉特征,并将解耦后的特征分别与相应的提示嵌入进行交互。Jing 等人 [Jing 等人,2024] 通过探索相同对象组合和相同状态组合之间的内部联系,加强了状态和对象的解耦表示。 

这些方法充分利用了 CLIP 强大的跨模态对齐能力,取得了显著的成果。然而,它们普遍忽略了 CLIP 本身的固有局限性。从局部角度来看,基于 Transformer 架构的 CLIP 图像编码器将整个图像压缩为固定的全局特征向量。为了提高计算效率和训练速度,模型倾向于关注全局视觉信息,而对细粒度的局部细节不太敏感。从全局角度来看,CLIP 的对比学习目标旨在最大化匹配图像 - 文本对的全局特征之间的相似性,同时最小化不匹配对的相似性。这种全局优化策略优先捕捉图像和文本在语义空间中的整体对齐,而不是对齐细粒度的局部特征。因此,对于需要精确区分局部特征的任务,如 CZSL 中状态 - 对象组合的细粒度建模,CLIP 的性能往往受到限制。 

因此,为解决上述问题,本文提出了 MSCI,一种用于组合式零样本图像分类的多阶段跨模态交互模型。该模型充分利用 CLIP 在跨模态对齐方面的优势,同时弥补其在处理细粒度局部特征方面的不足,如图 1 所示。与以往仅依赖输出层特征的 CZSL 模型不同,MSCI 采用两个可训练的特征聚合器,分别从低层和高层视觉特征中提取局部视觉信息和全局视觉信息。通过与文本嵌入分阶段交互,MSCI 不仅将全局视觉信息整合到文本特征中,还捕捉到常被忽视的有价值的局部细节,从而显著提高了模型识别未见组合的准确性和泛化能力。 

此外,为了使模型能够根据不同的组合以及同一组合内的不同元素(即状态和对象)动态调整对局部和全局视觉信息的关注,我们提出了一个融合模块来调节局部和全局视觉特征对最终文本嵌入的相对影响。这种机制极大地增强了模型处理复杂任务的能力,并提高了其对广泛场景的适应性。 

本文的贡献总结如下: 

•我们首次强调了 CLIP 由于其架构和训练范式,在 CZSL 任务中对局部特征感知的固有局限性,并提出通过有效利用其视觉编码器的中间层信息来解决这一问题。 

•我们提出了用于组合式零样本学习的 MSCI 模型。通过分阶段的特征融合和交互,我们逐步增强文本嵌入、局部视觉信息和全局视觉信息之间的关系,确保它们在跨模态任务中的协同交互。 

•我们通过实验验证了所提出模型的有效性,结果表明,在开放世界和封闭世界设置下,该模型在三个广泛使用的数据集上的大多数关键指标上均实现了最先进的性能。 

2、相关工作 

2.1 组合式零样本学习 

CZSL 是零样本学习的一种特殊形式,不依赖任何辅助信息。其核心目标是通过解耦和重组视觉特征,实现从已知组合到未见组合的泛化。当前的 CZSL 模型大致可分为两类:基于 CLIP 的模型和非基于 CLIP 的模型。 

在基于 CLIP 的 CZSL 模型中,Zhou 等人 [Zhou 等人,2022] 首次提出将提示工程与预训练视觉语言模型(VLM)相结合,以解决为下游任务设计提示时的效率问题。通过学习可调节的上下文词向量,他们实现了提示句子的自动生成,有效减轻了对特定任务提示设计的依赖。为解决 VLM 在下游 CZSL 任务中的局限性,Nayak 等人 [Nayak 等人,2022] 将定义类别的属性和对象标记视为可学习参数,通过提示的多种组合对其进行优化。Xu 等人 [Xu 等人,2024a] 进一步将对象和属性之间的组合关系建模为图结构,将属性和对象标签视为图节点,并利用图神经网络(GNNs)[Scarselli 等人,2008;Du 等人,2021] 来更新和优化软提示表示。 

特别是,Huang 等人 [Huang 等人,2024] 将单路径范式扩展到多路径框架,为状态、对象及其组合建立独立的识别分支。他们还引入了跨模态对齐模块,以更好地将提示表示与当前视觉内容对齐。然而,这种方法仅关注最终层视觉特征与文本之间的交互,导致视觉编码器前向传播过程中大量局部信息的丢失。在多路径范式的基础上,Jing 等人 [Jing 等人,2024] 通过构建相关样本数据库,进一步增强了视觉特征的解耦。 

尽管这些方法在将 CLIP 的跨模态对齐能力适应 CZSL 任务方面取得了显著进展,但它们往往忽略了 CLIP 在其架构和对比学习训练范式中的固有局限性,特别是其对细粒度局部特征的较弱敏感性。相比之下,所提出的 MSCI 模型直接解决了这一关键局限性,为 CZSL 任务提供了更稳健和更高性能的解决方案。 

2.2 多层特征聚合 

近年来,针对下游任务对 Transformer 中间层信息的探索在计算机视觉领域引起了广泛关注。通过利用中间层包含的多层次和多尺度特征信息,这种方法有效解决了传统深度学习模型仅依赖高层特征的局限性。例如,Tang 等人 [Tang 等人,2023] 利用低层特征的边界特征和高层特征的语义信息,将其应用于医学图像分割任务。类似地,Liu 等人 [Liu 等人,2024] 通过将多层特征学习和编码模块与 Transformer 联合训练,增强了多尺度局部细节和结构关系的捕捉,在恶意网页检测中取得了出色性能。此外,这一思想已扩展到其他领域 [Li 等人,2024b;Miao 等人,2025],如跨模态检索 [Yang 等人,2023;Li 等人,2024a] 和视觉定位 [Wang 等人,2022;Xu 等人,2024b],展示了其广泛的适用性。 

3、方法论 

本节首先对 CZSL 任务进行形式化定义,这是分析 CLIP 在处理下游 CZSL 任务时固有局限性的基础。在此分析的基础上,我们详细介绍了我们提出的模型。该模型的核心在于聚合 CLIP 视觉编码器的多层信息,并与文本嵌入进行分阶段跨模态交互。这种设计使模型能够精确地将全局视觉信息与局部视觉特征相结合,促进提示表示的自适应调整。通过这样做,我们的模型有效解决了 CLIP 在感知细粒度局部特征方面的局限性。所提出模型的总体框架如图 2 所示。 


MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区

3.1 预备知识 

问题表述 

给定一个状态集S = \{s_0, s_1, ..., s_n\}和一个对象集O = \{o_0, o_1, ..., o_m\},可以通过笛卡尔积构建一个标签空间C,表示为C = S × O。从C中提取两个不相交的子集:已见类集C_s和未见类集C_u,满足C_s ∪ C_u ⊆ C且C_s ∩ C_u = ∅。在训练阶段,CZSL 的任务是学习从输入图像空间X到C_s的判别映射P: X →C_s。在测试阶段,给定一幅图像I,任务是使用学习到的判别映射P从测试类集C_{test}中预测一个类标签c = (s, o): 

根据搜索空间的不同,CZSL 任务在两种设置下配置:在封闭世界设置中,仅考虑预定义的组合空间,即C_{test} = C_s ∪ C_u;在更具挑战性的开放世界设置中,搜索空间包括状态对象的所有可能对,即C_{test} = C。 

CLIP 的局限性 

CLIP 在局部特征感知方面的局限性主要归因于两个因素:其视觉编码器架构的设计和基于对比学习的训练范式。CLIP 的视觉编码器基于 Transformer 架构,该架构通过其全局注意力机制在建模长程特征依赖方面表现出色,但代价是牺牲了局部细节。这种局限性在捕捉边缘和纹理等低层特征时表现得尤为明显。此外,CLIP 的训练目标旨在通过对比学习最大化图像和文本之间的全局语义对齐,导致模型优先捕捉一般语义信息,而忽略更精细的局部细节。此外,对比学习范式要求模型快速区分图像间的显著特征,进一步降低了其对细粒度局部特征的敏感性。 

特征编码 

我们使用 CLIP 图像编码器作为视觉主干,其基于 ViT-L/14 架构。对于图像集X中的输入图像I,我们从输出层提取 [CLS] 标记I_{cls}作为其嵌入表示。在此基础上,我们遵循先前工作的三路径范式,其中图像嵌入I_{cls}作为输入到三个独立的多层感知机(MLPs)[Kruse 等人,2022],以生成组合、状态和对象的视觉表示,分别表示为V_{com}、V_{state}、V_{obj}。在文本层面,我们设计了以下形式的软提示模板:“a photo of [state] [object]”、“a photo of [state] object” 和 “a photo of [object]”,分别用于构建所有候选组合、状态和对象的提示。这些提示随后被输入到 CLIP 文本编码器中,生成提示嵌入t_{com}、t_{state}和t_{obj}。它们的维度分别为[N_{com}, d]、[N_{state}, d]和[N_{obj}, d],其中N_{com}、N_{state}和N_{obj}分别表示所有候选组合、状态和对象的数量,d表示嵌入维度。我们将 [state] 和 [object] 的嵌入视为可训练参数进行微调。 

3.2 多层信息聚合 

在 CLIP 视觉编码器采用的 ViT 架构中,不同层次的特征表现出独特的信息特征:低层包含图像丰富的局部细节信息,而高层则倾向于整合全局结构特征。为了有效利用层间信息,我们设计了一个自适应特征聚合模块,如图 3 所示。 


MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区

图 3:低层特征聚合器示意图。 

假设第i层的视觉特征表示为F_i,维度为[b, l, d],其中b是图像集X中的图像数量,l表示卷积后生成的补丁数(包括 [CLS] 标记)。我们从 CLIP 视觉编码器的前N层和后M层提取特征,然后分别沿特征维度拼接,形成更丰富的特征表示。拼接后的特征可以表示为: 


MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区

其中S是 CLIP 视觉编码器中编码器块的总数,F_{\text{first\_n}}和F_{\text{last\_m}}分别表示前N层和后M层特征的拼接,维度分别为[b, l, N×d]和[b, l, M×d]。拼接后的特征首先经过线性变换,将其从拼接维度(N(M)×d)映射到目标特征维度d,然后进行层归一化以确保训练稳定性。接着应用 ReLU 激活函数引入非线性,增强模型捕捉复杂特征关系的能力。最后,使用 Dropout 层提高模型的泛化能力。最终融合的低层和高层特征F_{\text{low}}和F_{\text{high}}可以表示为: 


MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区

其中W∈\mathbb{R}^{d×(N(M)×d)}是线性变换的权重矩阵,b ∈ \mathbb{R}^d是偏置项,\mu和\sigma是全连接层输出特征的均值和标准差,\mathcal{D}(\cdot, p)表示以p为 dropout 概率的 Dropout 操作。 

3.3 多阶段跨模态交互 

融合的低层特征F_{\text{low}}捕捉了丰富的局部视觉细节,而融合的高层特征F_{\text{high}}整合了更抽象的全局视觉信息。它们与来自任何分支的提示嵌入t(即t可以是t_{com}、t_{state}或t_{obj}中的任意一个)分阶段交互。 

在第一阶段,提示嵌入t与融合的低层特征F_{\text{low}}进行跨模态交互,以有效地将低层特征中包含的丰富局部细节整合到提示嵌入中。这种交互通过结合残差连接的跨注意力层实现,如公式所示: 

其中t'表示跨模态交互后的更新提示嵌入,d是注意力的维度。 

此外,我们采用 Huang 等人 [Huang et al., 2024] 提出的前馈网络(FFN)设计,通过多层感知机(MLP)实现。该网络旨在优化交互后的特征表示,并通过结合残差连接生成输出,如公式所示: 


MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区

其中t_1表示经过 FFN 后的更新提示嵌入。第一阶段后,提示嵌入整合了来自低层特征的丰富局部视觉信息。 

第二阶段采用与第一阶段类似的交互模式,旨在进一步将高层特征中包含的更抽象的全局视觉信息整合到提示嵌入中。我们将第一阶段获得的提示嵌入t_1和融合的高层视觉特征F_{\text{high}}作为输入,通过跨注意力层和前馈网络进行处理,导致提示嵌入的进一步更新。该过程表示如下: 

与t_1相比,t_2进一步整合了高层视觉特征中包含的抽象全局视觉信息。为了根据不同的组合以及同一组合的不同提示分支,动态为局部和全局视觉信息分配注意力权重,我们引入两个可学习参数\lambda_1和\lambda_2,以调节t_1和t_2在最终提示嵌入中的权重。最终提示嵌入表示如下: 


MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区

3.4 训练与推理 

我们遵循多路径范式的标准训练和推理过程。假设初始提示嵌入t_{com}、t_{state}和t_{obj}通过多阶段交互转换为T_{com}、T_{state}和T_{obj}。将图像I分配给组合标签c(s, o)、状态标签s和对象标签o的概率可以表示为: 


MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区

其中\tau ∈ \mathbb{R}表示预训练温度参数,T_{com}^c、T_{state}^s和T_{obj}^o分别表示组合c、状态s和对象o的提示嵌入。使用交叉熵将每个分支预测的概率与独热编码标签进行比较,以计算损失。总训练损失随后作为各分支损失的加权和获得,公式如下: 


MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区

在推理阶段,对于输入图像A,假设C(s_i, o_j)是搜索空间S中的任意组合,模型根据以下公式预测最可能的组合\hat{c}: 


MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区

其中\beta是预定义参数,用于控制推理过程中各分支结果的比例。 

4、实验 

4.1 实验设置 

数据集 

我们在三个广泛使用的组合式零样本学习数据集上评估了所提出的 MSCI 的性能:MIT-States [Isola 等人,2015]、UT-Zappos [Yu 和 Grauman,2014] 和 C-GQA [Naeem 等人,2021]。MIT-States 数据集包含 53,753 张图像,涉及 245 个对象类别和 115 个状态类别。UT-Zappos 数据集包括 50,025 张图像,涵盖 12 个对象类别和 16 个状态类别。C-GQA 基于 GQA 数据集 [Hudson 和 Manning,2019] 构建,包含 870 个对象类别和 453 个状态类别。与先前研究一致,我们采用 Purushwalkam 等人 [Purushwalkam et al., 2019] 提出的数据集划分方法,具体细节见表 1。 


MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区

表 1:数据集统计信息 

评估指标 

我们遵循先前研究 [Nayak 等人,2022] 采用的标准评估协议,在封闭世界和开放世界设置下全面评估模型的性能。具体而言,评估指标包括最佳已见准确率(S)、最佳未见准确率(U)、最佳调和均值(HM)和已见 - 未见准确率曲线下面积(AUC)。其中,S 衡量当校准偏差设置为 +∞时模型对已见组合的最高准确率,而 U 反映当偏差设置为 -∞时对未见组合的最高准确率。HM 表示模型在已见和未见类别预测准确率之间实现最佳平衡的点。AUC 通过动态调整偏差范围从 -∞到 +∞计算,代表已见与未见准确率曲线下的面积。因此,AUC 是最能反映模型整体性能的核心指标。 

实现细节 

我们基于 PyTorch 实现了所提出的模型,使用具有 ViT-L/14 架构的 CLIP 主干,通过低秩适应(LoRA)[Hu 等人,2021] 进行微调。所有实验均在 Nvidia H20 GPU 上进行。训练期间,我们使用 Adam 优化器,结合学习率衰减和权重衰减策略。为了简化模型复杂度,在三个数据集上,我们对局部特征交互和全局特征融合均仅使用一个跨注意力层,具有 12 个注意力头, dropout 率设置为 0.1。控制各分支推理权重的参数\beta,在封闭世界设置中,MIT-States、UT-Zappos 和 C-GQA 分别设置为 0.1、1.0 和 0.1,在开放世界设置中分别设置为 0.3、1.0 和 0.3。此外,在开放世界设置中,我们引入可行性分数作为阈值,以消除不合理的组合,有效减少搜索空间。具体阈值根据模型在验证集上的性能确定。 

4.2 主要结果 

我们将 MSCI 与使用相同主干(ViT-L/14)的其他 CZSL 模型进行了比较,包括基于 CLIP 的模型和非基于 CLIP 的模型。封闭世界设置的结果见表 2,开放世界设置的结果见表 3。 


MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区


MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区

在封闭世界设置中,MSCI 在所有三个数据集上均实现了最佳的 AUC 和 HM 指标,与次优模型相比,MIT-States、UT-Zappos 和 C-GQA 的 AUC 分别提高了 1.8%、9.8% 和 14.5%。这些提升百分比与数据集中包含的细粒度信息水平密切相关:与 MIT-States 相比,UT-Zappos 和 C-GQA 包含更丰富的细粒度细节,导致性能提升更为显著。 

在开放世界设置中,MSCI 继续表现出卓越性能,UT-Zappos 和 C-GQA 的 AUC 分别提高了 13.0% 和 40.7%。开放世界设置中获得的更大性能提升可归因于搜索空间的扩大,其中判别性局部信息在推理过程中变得越来越关键。MSCI 有效利用了这些信息,保持了强大的泛化能力和优越性能。 

4.3 消融实验 

为了进一步验证 MSCI 中每个模块的有效性,我们在 UT-Zappos 数据集上进行了消融实验。结果见表 4。 


MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区

表 4:UT-Zappos 封闭世界设置下的消融实验结果 


聚合器消融 

为了验证多层特征聚合模块的有效性,我们将其替换为以下两种替代方法:首先,使用视觉编码器第一层和最后一层的特征分别在第一阶段和第二阶段进行跨模态交互(w/o Agg a)。其次,使用前 N 层特征的平均值和后 N 层特征的平均值进行分阶段跨模态交互(w/o Agg b)。实验结果表明,与上述两种方法相比,所提出的自适应融合模块在保持信息丰富性的同时实现了更好的聚合效果。 

多阶段跨模态交互消融 

为了验证多阶段跨模态交互模块的有效性,我们在两个独立的消融场景中分别移除了第一阶段(w/o Ms a)和第二阶段(w/o Ms b)的交互模块。实验结果表明,与单阶段跨模态交互相比,分阶段跨模态交互能够将全局视觉信息融入提示嵌入,并进一步整合丰富的局部视觉信息,从而取得更好的结果。 

动态融合消融 

为了验证所提出的融合方法的有效性,我们将其替换为直接使用多阶段跨模态交互模块的输出(即移除公式 9 中的\lambda_1 t_1项)(w/o Df)。根据实验结果,与单一融合方法相比,我们提出的融合方法可以根据不同的组合以及同一组合的不同提示分支,动态调整对全局和局部视觉信息的关注,实现了更优的性能。 

4.4 定性结果 

在 MSCI 框架内,我们根据每个数据集的复杂度调整所选层数。对于相对简单的 UT-Zappos 数据集,选择前三层和后三层的特征进行聚合已被证明可以优化模型性能。相比之下,对于结构更复杂的 MIT-States 和 C-GQA 数据集,处理前四层和后四层的特征更有效,以确保最佳结果。每个数据集的 AUC 指标随所选层数 N 的变化如图 4 所示。值得注意的是,广泛的评估表明,将 M 和 N 设置为相同值可产生更好的性能;因此,默认采用此配置。 


MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区


此外,我们从三个数据集中各选一个典型案例进行定性分析,如图 5 所示。通过两个成功案例可以直观地观察到,与单阶段交互模型相比,MSCI 的多阶段交互能够更有效和全面地整合跨模态信息,展示出显著优势。然而,在失败案例中,我们观察到某些干扰项与实际物品高度相似,导致 MSCI 误判了局部和全局特征,进而导致最终预测结果错误。 

MSCI:解决 CLIP 在组合式零样本学习中的固有局限性-AI.x社区

5、结论 

在本研究中,我们为组合式零样本学习提出了一种新颖的模型 MSCI。MSCI 采用自适应机制,逐步整合来自低层和高层视觉特征层的局部和全局信息,并以分阶段的方式将其融入提示嵌入中,有效克服了 CLIP 在捕捉局部视觉细节方面的固有局限性。此外,MSCI 可以根据不同的组合以及同一组合内的不同元素,自主优化对局部细节和全局视觉信息的注意力权重分配。实验表明,MSCI 在三个广泛使用的数据集上的各项评估指标均取得了显著改进。 


本文转载自​AIRoobt​ ,作者:Yue Wang等

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
标签
已于2025-5-21 06:45:57修改
收藏
回复
举报
回复
相关推荐