LMEye：面向大语言模型的交互式感知网络原创

发布于 2025-5-12 09:19

浏览

0收藏

摘要

目前构建多模态大语言模型（MLLMs）的高效方法，主要是通过简单的视觉映射网络，如线性投影层、多层感知器（MLP）或 BLIP-2 中的 Q-Former，将视觉信息融入大语言模型（LLMs）。这类网络仅对图像特征进行一次投影，并未考虑图像与人类输入之间的交互。因此，获取的视觉信息可能与人类意图脱节，无法满足大语言模型生成符合意图的回复，这种信息可称为静态视觉信息。为缓解该问题，本文引入 LMEye，这是一种类似人眼的可插拔交互式感知网络，旨在实现大语言模型与外部视觉信息的动态交互。它能让大语言模型根据各种人类指令，获取所需的视觉信息，即动态视觉信息采集。具体而言，LMEye 包含一个简单的视觉映射网络，为大语言模型提供图像的基本感知。它还设有额外模块，分别负责从大语言模型获取请求、基于请求搜索视觉信息，并将交互后的视觉信息传输给大语言模型。如此，大语言模型理解人类查询，将相应请求发送至基于请求的视觉信息交互模块，并根据交织的多模态信息生成回复。我们通过在多模态基准测试上的大量实验对 LMEye 进行评估，结果表明，与先前方法相比，它在各种多模态任务上显著提升了零样本性能，且参数更少。此外，我们还分别验证了其在不同语言模型和视频理解方面的有效性和可扩展性。

一、引言

在大量图像文本数据上训练的视觉语言模型（VLMs），在各种多模态理解和生成任务中表现出色。最近的多模态大语言模型（MLLMs）为大语言模型（LLMs）赋予了感知外部世界的能力，使其在处理复杂多模态信息和与环境交互方面表现强大。然而，从头开始训练一个多模态大语言模型（如 Flamingo、Kosmos-1 和 GPT-4）资源消耗巨大。为缓解这一问题，如图 1 所示，先前的开源研究表明，我们可以基于纯文本大语言模型构建多模态大语言模型，通过将（由预训练冻结的视觉编码器获取的）视觉信息转换为大语言模型的表示空间，使大语言模型能够理解视觉信息并进行多模态人机交互。值得注意的是，整个训练过程参数效率高，因为它仅需优化视觉到语言特征对齐的少量参数，类似于流行的前缀调优或提示调优方法。

LMEye：面向大语言模型的交互式感知网络-AI.x社区

图 1先前方法和我们方法的概述。“LoRA” 指流行的低秩适配器技术，专门用于特定任务的大语言模型。与先前通过视觉映射网络对输入大语言模型的图像特征进行一次转换的方法相比，我们引入了大语言模型请求引导的视觉信息搜索（RVIS）模块，在进行多模态理解和生成时动态获取与指令相关的视觉信息。

近期研究表明，可学习的线性映射网络能让大语言模型融入图像的基本全局感知信息。与常见的视觉语言模型（如 Oscar 和 OFA）不同，以这种方式构建的多模态大语言模型通常在多模态生成方面表现良好，这得益于大语言模型强大的上下文理解、推理和生成能力。在此基础上，Koh 等人提出了 FROMAGe 模型，他们冻结大语言模型和视觉编码器，并微调几个线性映射层以实现跨模态信息交互，在上下文图像检索和多模态对话任务中实现了强大的零样本性能。Li 等人提出了 BLIP-2，它使用轻量级查询变换器来弥合冻结的图像编码器和大语言模型之间的语义差距。此外，Liu 等人和 Zhu 等人最近引入的多模态指令跟随调优方法，提升了大语言模型的多模态交互能力，在各种多模态场景中表现卓越。

然而，对于先前的方法（如 BLIP-2、LLaVA 和 FROMAGe），输入大语言模型的视觉特征仅通过视觉映射网络进行一次转换，即图 1 中的视觉语言投影。因此，图像特征不与人类输入查询交互，在推理过程中保持不变，我们称之为静态视觉信息。由于一张图像往往能有效传达复杂甚至冗长的解释，即 “一图胜千言”，语言模型仅基于静态图像表示，可能无法获取针对各种查询的足够视觉信息。为解决这一问题，我们提出了一种类似人眼的、面向大语言模型的交互式感知网络 LMEye，它使大语言模型能够根据各种人类指令请求所需的视觉信息，我们称之为动态视觉信息采集。此外，从智能体的角度出发，我们将大语言模型视为多模态信息的核心处理器，不修改大语言模型的结构（如添加外部可学习参数）。否则，受类似观察的启发，可能存在削弱其在自然语言处理任务上原始性能的风险，从而降低大语言模型的泛化能力。

LMEye 主要包括两个阶段：第一阶段主要为大语言模型提供图像的基本感知信息，称为特征对齐。我们采用 BLIP-2 中广泛使用的视觉映射网络 Q-Former 来实现这一目标。另一个阶段负责动态视觉信息采集，主要包括：从大语言模型获取请求、基于请求搜索视觉信息，并将交互后的视觉信息传输给大语言模型。在此，我们引入了一种新颖的基于请求的视觉信息搜索（RVIS）模块，以实现大语言模型与视觉信息之间的动态交互。具体而言，大语言模型首先理解人类查询和图像的基本感知信息，我们使用可学习的探测向量并将其输入大语言模型，以获取大语言模型的请求。然后，这些请求表示被输入 RVIS 模块，以获得用于大语言模型下一步推理的交互后视觉信息。通过这种方式，大语言模型通过 RVIS 模块获得所需的视觉信息。最后，大语言模型根据基本图像信息、文本指令和交互后视觉信息的序列，生成符合指令的回复。

为验证 LMEye 的有效性，我们在 MMBench 和 SEED-Bench 等各种多模态基准测试上进行了大量实验。实验结果表明，与先前方法相比，LMEye 在各种多模态任务上显著提升了零样本性能，且参数更少。此外，我们还分别验证了其在不同语言模型和视频理解方面的有效性和可扩展性。

总之，本文提出的 LMEye 的贡献主要体现在以下三个方面：

1.我们提出了一种交互式感知网络，使大语言模型能够为各种人类查询融入所需的视觉信息。大语言模型以类似人类的方式，理解人类查询，将相应请求发送至基于请求的视觉信息搜索模块，并根据交织的多模态信息生成回复。

2.我们的 LMEye 以较少的参数（44 亿）实现了卓越的多模态理解和推理性能，在几乎所有基准测试中都优于许多更大的多模态大语言模型（超过 70 亿参数）。

3.消融研究表明，所提出的方法显著提升了各种规模和类型大语言模型的零样本多模态性能，并在视频理解任务中取得了较好的效果，这表明 LMEye 在下游应用中具有高度的可扩展性。

二、相关工作

在本节中，我们将从视觉辅助大语言模型、多模态指令跟随调优以及大语言模型的视觉工具三个方面，介绍多模态大模型的最新发展。

2.1 视觉辅助大语言模型

与从零开始使用大规模图像文本对训练的视觉语言模型不同，视觉辅助大语言模型基于预训练的大语言模型，使其能够理解视觉信息并处理多模态信息。它们通常采用最近提出的前缀调优或基于适配器的调优方法，在特定的多模态任务上对语言模型进行微调，以适应某些多模态场景。例如，有研究利用文本到图像技术生成图像，并将视觉信息融入语言模型以进行多模态文本生成。还有研究探索使用大语言模型进行图像文本检索和多模态文本图像交互。在此方向上的进一步探索中，BLIP-2 采用 FlanT5 或 OPT 以及 Q-Former，有效地将视觉特征与语言模型对齐。最近，拥有 5620 亿参数的 PaLME 被开发出来，用于将现实世界的连续传感器模态集成到大语言模型中，从而在现实世界感知和人类语言之间建立联系。总之，先前的工作表明，使冻结的大语言模型能够处理多模态信息是一个有潜力的研究方向。

2.2 大语言模型的多模态指令跟随调优

在指令调优纯文本大语言模型方面的进展，在自然语言处理任务和人机交互场景中取得了令人瞩目的性能提升，如 FlanT5、Bloomz 和 ChatGPT。最近，一些研究人员探索使用多模态指令数据对预训练的大语言模型进行微调，以提高它们的多模态人机交互能力。有研究使用 GPT-4 生成多模态指令数据，并在合成的多模态指令跟随数据集上对语言模型 LLaMA 进行微调。还有多项研究也引入了对齐良好的多模态指令跟随数据集，对强大的指令调优语言模型（如 Vicuna）进行微调。最近先进的多模态大语言模型通常通过引入更强大的语言模型和更大规模的高质量指令数据，在开放域多模态问答任务中取得卓越性能，如 LLaMA-VID、Qwen-VL、MiniGPT-5、InternLM-XComposer2 和 MobileVLM V2。此外，一些研究人员探索构建能够处理高分辨率图像、具有高推理效率和安全性的多模态大语言模型，如 Safety Finetuning、MoE-LLaVA 和 LLaVA-NeXT。在本文中，我们也引入了各种多模态指令数据，使 LMEye 能够适应开放域多模态场景，并与不同的人类查询进行交互。

2.3 大语言模型的视觉工具

最近的一系列研究探索了如何通过使大语言模型能够访问外部工具（如视觉基础模型、搜索引擎或其他 API）来解决复杂问题，从而提高大语言模型的性能。这种方法拓宽了大语言模型处理不同复杂程度信息的范围。例如，Toolformer 使大语言模型能够决定使用哪些 API、何时使用、传递哪些参数，以及如何将结果信息融入文本生成中。Low-code LLM 使用六种简单的低代码视觉编程交互（如点击、拖动或文本编辑），以实现更可控和可靠的回复。相比之下，有研究提出了一种即插即用的组合推理框架 Chameleon，增强大语言模型以应对复杂挑战，如使用现成的视觉模型。还有研究引入了 Visual ChatGPT，它设计了一组提示，将视觉模型信息融入 ChatGPT，同时考虑了具有多个输入 / 输出的模型以及需要视觉反馈的模型。与上述流水线方法不同，我们的工作提出了一种端到端的多模态生成方法，通过大语言模型外部的可学习信息搜索模块与视觉信息进行交互。

三、LMEye：交互式感知网络

在本节中，我们将首先介绍 LMEye 的总体概述，然后展示其两个主要阶段：特征对齐和基于请求的视觉信息搜索。

3.1 概述

如图 2 所示，LMEye 的总体架构包含两个阶段，分别实现不同的功能。给定一幅图像 I 和一个人类查询X = (x_1, ..., x_M)，其中x_i表示输入到大语言模型的人类查询中的第 i 个标记，我们通过 BLIP-2 的预训练视觉编码器获得全局和细粒度的图像特征h_I = (h_g^I, h_1^I, ..., h_{256}^I)。同时，一个可学习的特殊标记⟨img⟩被添加到大语言模型的词嵌入表中，作为图像特征的输入位置标记。首先，我们使用视觉映射网络获得投影后的视觉信息，并将其与人类查询一起输入到大语言模型中。此外，一个可学习的动态查询标记用于探测大语言模型的请求信息，然后这些信息被输入到 RVIS 模块中，以获得与查询相关的视觉信息。交互后的细粒度视觉信息、人类查询和基本图像感知信息被输入到大语言模型中，以获得最终答案。

LMEye：面向大语言模型的交互式感知网络-AI.x社区

图 2LMEye 总体架构示意图。训练过程中，图像编码器（来自 CLIP）和大语言模型被冻结，这使得整个训练过程高效。“RVIS” 代表基于请求的视觉信息搜索模块，旨在获取与人类查询相关的视觉信息。它由四层 Transformer 块组成。其输入和输出分别是来自大语言模型的请求表示和交互后的视觉信息。

3.2 特征对齐

在这个阶段，我们主要训练视觉映射网络，将基本图像特征转换为大语言模型的语言嵌入空间。我们采用 BLIP-2 中的 Q-Former 或可学习的线性投影层作为视觉映射网络。具体来说，我们首先使用预训练冻结的视觉编码器（如 CLIP-ViT）对输入图像 I 进行编码，得到图像的序列表示h_I^V = (h_g^I, h_1^I, ..., h_{256}^I)，其中 256 是图像补丁的总数。图像编码h_I^V将被输入到视觉映射网络中。以 Q-Former 作为视觉映射网络，我们首先初始化固定长度的可学习向量h_Q = (h_{q_1}, ..., h_{q_M})，并将其输入到 Q-Former 中，以提取图像的整体表示。详细的计算过程如公式 1 所示：

LMEye：面向大语言模型的交互式感知网络-AI.x社区

其中 D 指图像描述，Linear 是可学习的线性层，用于将图像表示投影到与大语言模型相同的维度。在获得图像标记h_I和图像描述h_D后，我们将它们拼接成一个序列[h_I, h_D]，并将其输入到大语言模型中，以训练视觉映射网络。图像表示中添加了一个标记的嵌入表示，用于定位图像。我们使用生成式交叉熵损失来优化视觉映射网络，公式如下：

LMEye：面向大语言模型的交互式感知网络-AI.x社区

其中D_N是图像描述的总标记长度。

3.3 视觉信息交互

在训练视觉映射网络使大语言模型理解图像之后，我们引入视觉信息交互，为大语言模型获取所需的视觉信息，这将增强对输入图像的整体理解以及图像与人类查询之间的动态交互。这个过程主要包括请求获取和基于请求的视觉信息搜索。

1.请求获取：我们在图像和人类查询的输入序列末尾添加另一个特殊标记⟨img-q⟩，以分别捕获图像和人类查询的整个编码信息。因此，如图 2 左侧所示，我们可以通过(, h_I, X, ) \to (h_I, h_X, h_{img-q})得到大语言模型的第一个输入序列，其中h_{img}指h_I与标记表示的相加。h_X和h_{img-q}分别是 X 和的相应词编码表示。我们期望大语言模型最后一层中标记的最终输出包含人类查询的语义含义，即h_r \in R^{1 ×d_{L}}，其中d_{L}指大语言模型的隐藏状态大小。这是因为先前的研究表明，最近的大语言模型已经能够理解各种人类语言。自注意力计算可以帮助动态特殊标记捕获输入序列的先前序列信息。此外，h_r也可能通过大语言模型的自注意力机制包含图像内容，但我们认为，没有在多模态数据上进行预训练的纯文本大语言模型，无法像强大的预训练多模态图像和语言模型那样很好地融入视觉信息。为了帮助大语言模型融入与人类查询对齐的所需视觉信息，我们不在特定数据上（使用全参数或低秩适应）优化大语言模型的参数（如 LLaVA 和 mPLUG-Owl），而是在大语言模型外部进行人类查询和视觉信息之间的交互。通过这种方式，大语言模型可以保持其在自然语言任务上的原始能力和泛化性，因为大语言模型的结构和参数没有改变。总之，我们认为这个过程是从大语言模型获取请求信号，例如，如图 2 中的示例所示，大语言模型对来自人类查询 “Q1：图片中的人在做什么？Q3：你能在图片中看到什么特别的东西吗？” 的请求信息进行编码。

2.基于请求的视觉信息搜索（RVIS）：首先，我们应用一个线性投影层，将上述隐藏状态h_r映射到后续信息交互模块的空间中，记为h_R \in R^{Q ×d_{RV}}，其中 Q 和d_{RV}分别指请求向量的长度和 RVIS 的隐藏大小。在获得大语言模型的请求后，我们提出利用h_R与细粒度图像特征进行多模态信息交互。为此，我们采用多层 Transformer 块来实现基于请求的视觉信息交互。每个块的计算如公式 3 所示：

LMEye：面向大语言模型的交互式感知网络-AI.x社区

其中h_{l-1}是第 l - 1 层的输出，RVIS 的输入是h_R。自注意力（SelfAttention）和交叉注意力（CrossAttention）基于多头注意力机制，用于捕获所需的视觉信息。在获得最后一层的输出之后，我们利用一个可学习的线性投影层将交互后的信息传输给大语言模型，记为h_t 。随后，新的表示序列（(h_{img }, h_{X}, h_{t}) ）被输入到大语言模型中以生成最终答案。假设多模态指令跟随问答的训练目标是Y=(y_{1}, \ldots, y_{N})，其中y_{i}表示第i个标记，N表示总长度，优化损失如下：

\mathcal{L}=-\frac{1}{N} \sum_{i=1}^{N} \log P_{i}\left(\hat{y}_{i}=y_{i} | I ; h_{X} ; h_{img-q} ; y_{1}, \ldots, y_{i-1}\right)

RVIS 输出的交互后视觉信息在增强大语言模型的多模态信息交互方面发挥着重要作用，尤其是在视觉对话场景中。通过这种方式，整体的交互感知网络 LMEye 能够理解人类查询，将相应请求传递给基于请求的视觉信息搜索模块，并根据交织的多模态信息生成响应。

3.4 多模态指令跟随微调

我们使用各种多模态指令跟随数据，以使交互感知网络有效运行。首先，如图 3 第一行所示，我们基于来自 CC3M、COCO Caption 和 Flick3k 数据集的图像文本对，构建了两种类型的图像文本语义匹配数据，分别是 “是非” 推理和四选一选择任务，其中的图像字幕是从相应的训练集中随机采样得到的。通过这样做，可以训练整个网络，以帮助和提高大语言模型进行图像文本语义对齐的能力。其次，为了使 LMEye 适应各种人类查询，我们引入了由 [21] 发布的关于对话和复杂推理的多模态指令跟随数据。此外，考虑到复杂图像包含无限层次的视觉信息，并且可能涉及外部知识，我们引入了关于图像详细描述的数据，以提高多模态长文本生成能力，其中包括来自 [21] 的相应数据和艺术品描述数据集 SemArt 。所有指令数据的总数约为 730 万，涵盖 710 万语义匹配数据、2 万个艺术品分析样本和 15 万个多轮对话样本。最后，与 InstructBLIP 类似，我们还通过引入大约 20 个多模态任务的部分训练集来扩充指令跟随数据集，同时在两个多模态基准上进行比较。我们将发布收集到的多模态指令跟随数据。

LMEye：面向大语言模型的交互式感知网络-AI.x社区

图 3我们的多模态指令微调数据示意图。第一行描述了 “是 / 否” 匹配问答对。第二行和第三行展示了关于对话、详细视觉理解和复杂推理的多模态指令跟随数据。

四、实验

4.1 实验设置

1.数据集：首先，我们在最近发布的综合多模态基准测试 MMBench 和 SEED-Bench 上评估 LMEye，这些基准测试是经过系统设计的客观基准，用于稳健评估视觉语言模型的各种能力，详细的理解介绍见表 1 和表 2。为了验证 LMEye 在各种条件下的有效性，我们还在三个视觉理解和推理数据集上评估 LMEye 和其他视觉语言模型：

VCR（视觉常识推理）：由 Zellers 等人于 2019 年开发，该数据集要求模型回答有关图像的问题，不仅需要识别图像中的对象，还需要理解场景，并对所描绘的关系和动作进行推理。
VQAv2（视觉问答版本 2）：由 Goyal 等人于 2017 年创建，是原始 VQA 数据集的扩展，专注于视觉问答，测试模型回答给定图像相关问题的能力，该数据集比其前身设计得更加平衡和全面。
OK-VQA（外部知识视觉问答）：由 Marino 等人于 2019 年推出，该数据集强调在回答关于图像的问题时需要外部知识。与其他专注于图像内部视觉理解的数据集不同，OK-VQA 要求模型利用外部信息（如常识或现实世界事实）来正确回答问题。

此外，我们还使用 GPT-3.5-turbo，基于 [22] 中的约 3500 张图像及其详细描述，生成围绕每张图像的五个问答对。提示模板为 “为以下详细的图像描述生成五个问答对。要求：问题的答案必须包含在描述中，格式为问题：... 答案：... \n 描述： ”。问答对的总数约为 17500 个，其中答案的长度超过了传统 VQA 数据集，平均长度为 13 个单词。构建这些数据用于评估和分析近期多模态大语言模型的性能。

2.对比模型：Flamingo 是一个统一的多模态生成模型，能够快速适应各种图像和视频任务；OFA 是一个序列到序列学习框架，可以统一各种跨模态和单模态任务；FROMAGe 是一个典型的语言视觉大模型（LVLM），通过图像字幕和对比学习对大语言模型进行视觉基础训练，能够进行图像字幕生成和图像文本检索；BLIP-2 采用两阶段训练策略，基于冻结的图像编码器和语言模型，引导视觉语言表示学习和视觉到语言的生成学习，在各种多模态任务中实现了最先进的性能。此外，我们还将我们的方法与多模态指令微调模型 MiniGPT-4 和 LLaVA 进行比较，其中 MiniGPT-4 基于 BLIP-2 中预训练的 Q-Former。与 BLIP-2 和 FROMAGe 相比，它们使用由 GPT-4 生成的多模态指令跟随数据进行微调。在多模态指令微调阶段，LLaVA 的投影矩阵和大语言模型都被更新。

3.实现细节：我们在配备八个 Telsa A100-80G GPU 的 Python 环境中运行所有实验。为了验证 LMEye 的有效性，我们分别采用 OPT-iml-1.3b、Bloomz-7b1、LLaMA-7b/13b 和 BLIP-2 (FlanT5XL) 作为我们框架的骨干模型。在特征对齐阶段，我们将初始学习率设置为1e^{-4}，并使用 AdamW 优化器以余弦退火方式优化特征对齐过程。此阶段的总训练步数为一个 epoch，批次大小为 768。在多模态指令微调阶段，我们采用较小的批次大小（256），并将初始学习率设置为1e^{-4} 。RVIS 的深度设置为 12，隐藏层大小为 768。在进行多模态指令微调时，我们将冻结第一阶段的参数（包括特征对齐中的线性投影层和的标记表示，或 BLIP-2 中的 Q-Former）。在生成过程中，我们采用 HuggingFace Transformer 仓库中的束搜索（beam search）生成策略，并将详细图像描述生成和 VQA 的束宽分别设置为 4 和 1。

4.评估指标：对于短答案的视觉问答（VQA）和视觉推理数据集，我们采用常见的 EM（完全匹配）计算方法作为准确率的评估方法。对于详细图像描述生成和长答案的 VQA，我们采用几种生成式评估指标：

•BLEU：一种用于评估机器翻译文本质量的指标，通过计算生成文本中 n - gram（n 个单词的短语）与参考文本的精确匹配程度，并对过短的输出进行惩罚，以此衡量机器输出与人类输出的对应程度。

•ROUGE：侧重于召回率，即参考摘要中的内容在生成摘要中出现的比例。ROUGE 包括多种度量方式，如 ROUGE-N（生成文本和参考文本中 n - gram 的重叠情况）、ROUGE-L（最长公共子序列）等，每种方式都强调文本的不同方面。

•CIDEr：专为评估图像描述任务而设计，通过计算生成句子与一组人类编写的参考句子之间的余弦相似度（基于 TF-IDF 加权的 n - gram），量化生成句子与参考句子的相似程度。

•METEOR：超越了简单的 n - gram 匹配，纳入了同义词和词干形式，以实现更灵活和准确的匹配。METEOR 基于单字精度和召回率的调和均值，且召回率的权重高于精度。

4.2 整体结果与分析

1.MMBench 评估：在 MMBench 上的评估结果如表 1 所示。结果表明，我们提出的模型 LMEye - FlanT5 - XL 在使用更少参数（44 亿对大于 70 亿）的情况下，优于其他可比模型。值得注意的是，LMEye 在推理性能方面表现出色，特别是在逻辑推理（LR）、属性推理（AR）和关系推理（RR）方面。这表明 LMEye 能够有效地进行推理，并在不同信息之间建立联系，从而比其他模型表现更好。此外，我们通过在相同的指令跟随数据上，在 Q-Former 中实现人类查询和图像之间的交互，训练了没有 RVIS 的 LMEye（我们的模型），但 LMEye 在多个方面仍然优于它。这也表明，多模态指令数据的多样性和质量在构建多模态大语言模型中也起着重要作用。

表1：MMBench上的模型性能。语言模型和视觉模型代表这些多模态大语言模型的主要骨干。“TOTALPARAMS”表示多模态大语言模型的总参数。逻辑推理（LR）、属性推理（AR）、关系推理（RR）、细粒度感知（跨实例）（FP-C）、细粒度感知（单实例）（FP-S）和粗粒度感知（CP）。

LMEye：面向大语言模型的交互式感知网络-AI.x社区

2.SEED-Bench 评估：表 2 中的实验结果证明了 LMEye 实现最先进（SOTA）性能的有效性。具体来说，LMEye 在场景理解方面有显著提升，比之前的 SOTA 模型提高了 13 分。此外，在样本属性识别和空间关系理解类别中，LMEye 也优于 InstructBLIP。这些结果突出了即插即用交互式感知框架在增强语言模型理解图像和多模态指令能力方面的有效性。总体而言，这些发现展示了大语言模型在推进图像理解领域的潜力，并表明即插即用交互式感知框架可以有效地利用这些能力。该领域的进一步研究可能为更复杂和有效的图像理解方法铺平道路，对广泛的应用和行业产生影响。

表2：SEED-Bench上的模型性能。我们在图像理解的九个维度上评估LMEye (FlanT5-XL)-44亿参数版本及其消融变体（无RVIS），包括场景理解（SU）、实例识别（II）、实例位置（IL）、实例属性（IA）、实例计数（IC）、空间关系（SR）、实例交互（IIR）、视觉推理（VR）和文本识别（TR）。“LM”、“VM”和“TP”分别指多模态大语言模型使用的语言模型、视觉编码器及其总参数。“OVERALL”代表九个任务的平均得分。

LMEye：面向大语言模型的交互式感知网络-AI.x社区

3.此外，InstructBLIP 模型的变体在实例识别（IL）和实例计数（IC）指标上表现出色。在评估训练和测试数据集时，有两个主要因素促成了这一成功：一是 InstructBLIP 模型使用了细粒度的训练数据集，如 OCR-VQA 和 TextCaps，这些数据集有助于增强模型在图像中精确定位和计数特定对象的能力，促进对视觉元素更详细的理解；二是基础语言模型的内在能力显著影响了不同多模态任务的性能。FlanT5 模型是 T5 模型的改编版本，专门针对各种自然语言处理任务进行了微调，与 Vicuna - LLaMA 模型相比，它采用了不同的预训练和微调数据。这种训练背景的差异使得在特定任务的性能上具有独特的优势，特别是在需要细致语言理解的任务中。

此外，我们注意到在使用 RVIS 模块时，文本识别（TR）任务的性能有所下降。TR 评估数据集相对较小，仅包含 85 个实例，与包含 14233 个样本的更广泛的 SEED-Bench 相比，规模相当有限，这限制了我们研究结果的普遍性。TR 数据集中很大一部分（85 个实例中的 72 个）专门涉及颜色识别问题，例如 “图像中文字的颜色是什么？”。不幸的是，我们的指令微调数据集没有充分涵盖 OCR 或相关任务，导致 RVIS 模块在识别和处理此类查询时表现不佳。相比之下，基线（没有 RVIS）的 Q-Former 直接从预训练参数中微调，接触了大约 1.29 亿张图像，包括那些有特定颜色内容的图像。这种在多样视觉输入方面的广泛背景有助于保持其颜色感知能力，而 RVIS 模块由于接触到的相关指令数据有限，在这方面表现较弱。为了缓解这个问题，并在 RVIS 在一般场景理解中展现出的初步前景基础上继续发展，未来的改进将包括用更多样化的示例丰富我们的训练数据集，特别是那些包含颜色相关数据的示例。这一策略旨在增强 RVIS 的颜色感知能力和在文本识别任务中的整体性能。

4.3 消融研究与分析

1.视觉问答和多模态推理：实验结果如表 3 所示，我们没有展示 LLaVA 和 MiniGPT-4 在 VCR 上的结果，因为它们没有按照提示从四个候选选项中选择一个。这可能归因于 Vicuna 的自身能力，它是仅用对话数据微调的 LLaMA 模型。与传统的视觉语言模型（如 Flamingo-3B 和 OFA）相比，设计的 LMEye 变体和其他多模态大语言模型能够在答案选择（VCR）和短答案生成任务（VQA）上实现更好的零样本性能，即使 LMEye (Bloomz-7b1) 在预训练阶段仅见过 170 万张图像。因此，基于冻结的视觉编码器和大语言模型构建训练高效的多模态大语言模型的方法是可行的。此外，在预训练阶段引入更强大的语言模型和高质量的图像文本数据，将提高语言模型理解图像信息的准确性，例如各种 LMEye (Bloomz-7b1) 和 LMEye (OPT-iml-1.3b) 变体的性能比较。当我们引入基于 BLIP-2 的 LMEye，并通过收集的多模态指令数据训练交互框架时，它在复杂视觉问题任务 OK-VQA 上的性能大幅提高了约 5%，并且比 InstructBLIP 表现更好。通过进一步比较它们在表 1 和表 2 中的性能，我们可以发现引入两阶段交互式感知网络（RVIS）对提高整体多模态性能的有效性。各种高质量的指令数据在提高问题理解和信息搜索准确性方面也起着重要作用。

2.长答案视觉问答：我们主要在构建的评估基准上评估各种 LMEye 变体，包括详细图像描述和视觉问答任务。根据表 4 中的实验结果，我们可以看到经过多模态指令微调的 LMEye 模型几乎显著提高了所有生成指标。结合图 4 顶部给出的示例，我们认为多模态指令跟随微调方法有助于大语言模型实现类似于 GPT-4 的图像理解能力。此外，我们发现 LMEye (Bloomz-7b1) 能够理解各种问题的意图并生成准确的响应。与 LLaVA (Vicuna-7b)、MiniGPT-4 和 BLIP-2 相比，这些模型为关于图像的不同问题融入了静态视觉信息，而我们的方法可以获取与人类查询相关的相应视觉信息，并生成更准确的响应（见实验表和图 4 中的比较性能）。

表4：在第四节A部分给出的自建评估基准上的消融实验。“长答案视觉问答”主要侧重于用一个或多个句子回答问题。“详细图像描述”需要模型对图像进行详细描述。

LMEye：面向大语言模型的交互式感知网络-AI.x社区

3.详细描述：与 MiniGPT-4 和 LLaVA 使用的多模态指令跟随数据不同，我们引入了艺术品描述数据作为指令微调数据的一部分，从而提高了模型理解艺术品的能力。我们观察到，大语言模型可以利用其存储的知识对艺术品进行充分的分析，如图 4 中的艺术品理解所示。从表 4 中我们还观察到，详细图像描述能力的提高主要来自于使用相关的指令数据。我们的方法主要提高了多模态大语言模型在各种查询的 VQA 任务上的性能。总之，LMEye 变体的消融实验表明，所提出的交互式感知网络可以即插即用于各种大语言模型，并通过引入基于请求的视觉信息搜索模块提高整体性能。

4.4 视频理解的可扩展性

先前的实验展示了 LMEye 在各种大语言模型（如 BLOOM、LLaMA、FlanT5 和 OPT）上的显著可扩展性，这暗示了它在视频处理领域的潜在扩展能力。该方法包括训练一个专门的视频编码器和转换器，利用 RVIS 与长时间编码信号交互的能力。我们的方法包括聚合短视频帧的编码信息，并在视频动作和流程理解的严格基准测试中进行测试。我们视频理解实验的表 5 结果证实了扩展 LMEye 能力以理解视频内容的可行性。例如，LMEye 与领先的基线模型 VPGTrans 相比表现更优，在动作预测方面提高了约 7%，在流程理解任务中提高了约 3.5%。即使 LMEye 没有使用视频数据进行训练，也能取得这样的成绩，这表明它在这些场景中的性能优于 Video-ChatGPT。我们的发现不仅突出了该模型的成功扩展，还展示了与视频相关的多模态大语言模型相比，它值得称赞的性能。这一进展为该领域的进一步发展和应用指明了有前景的方向。

LMEye：面向大语言模型的交互式感知网络-AI.x社区

表 5来自 SEED-Bench 的视频理解和推理基准上的零样本性能。AP（动作预测）侧重于根据当前视频帧预测下一个动作，PU（流程理解）是选择正确描述视频中时间动作的选项。

4.5 案例研究

图 4 展示了 LMEye 在各种领域（包括指令跟随视觉问答（VQA）、艺术品理解、知识 VQA 和中文 VQA）的性能对比分析，从而突出了其应用的可扩展性。最初，我们的观察结果表明，LMEye 变体在回答与物体颜色和数量的枚举和识别相关的视觉问题方面表现卓越，如图 4 第一行所示。此外，当 LMEye-FlanT5xl 模型在训练过程中接触到艺术品数据集时，其分析艺术品的能力变得明显，展示了它在不同数据分布上的强大适应性。有趣的是，当 LMEye 与一个中英双语大语言模型 Lychee-Base-11B 集成时，它不仅在中文 VQA 中表现出色，还在英语知识 VQA 任务中表现出有效的泛化能力。这种多功能性证明了它全面的语言理解能力。此外，图 5 展示了一个与 LMEye-FlanT5XL 进行的随机多轮人机交互示例，突出了它在处理开放世界多模态推理查询方面的有效性。图 5 中蓝色突出显示的响应特别说明了我们的模型在这些复杂场景中的高水平性能。

LMEye：面向大语言模型的交互式感知网络-AI.x社区

图 4各种 LMEye 变体生成的一些案例示例。艺术品理解和多轮对话基于 LMEye (FlanT5XL)。为了检查 LMEye 对不同大语言模型的稳定性，我们还基于一个中英双语大语言模型 Lychee-Base-11B 开发了 LMEye-IPN-Lychee。IPN 指交互式感知网络，Lizhi 是 Lychee 模型的中文拼音。

LMEye：面向大语言模型的交互式感知网络-AI.x社区

图 5在随机对话设置中，与 LMEye-FlanT5-XL 进行多轮人机交互的示例。蓝色文字显示了对推理问题的正确回答。

五、讨论与未来工作

总体而言，我们主要对多模态指令微调的多模态大语言模型提出了一些观察和未来方向：

指令微调的大语言模型在多模态任务上具有更好的泛化能力：先前的工作表明，经过指令微调的大语言模型的 BLIP-2 变体在许多多模态任务中表现最佳。在表 3 中，我们观察到 LMEye (OPT-iml-1.3b)∗在 VCR 和 OK-VQA 任务上，比使用更大规模 OPT 版本的 FROMAGe (OPT-6.7b) 性能更好。这可能是因为指令微调的大语言模型比原始大语言模型更能理解人类查询，因此它们在多模态问答任务中表现更好。未来，在构建多模态大语言模型时，我们可以采用经过监督微调的大语言模型作为骨干模型。

表3：在三个常见多模态数据集上的消融实验结果。带有“∗”的LMEye变体表示我们仅保留预训练的线性投影层并去除交互过程（RVIS）。“NUMIMG”表示特征对齐阶段包含的图像总数。

LMEye：面向大语言模型的交互式感知网络-AI.x社区

多模态指令跟随数据的质量和多样性很重要：LLaVA (Vicuna-7b) 和 MiniGPT-4 (Vicuna-7b) 的比较表明，包含更多样化多模态指令数据的 LLaVA 性能优于 MiniGPT-4。这一发现与相关研究一致，该研究表明多样的多模态指令数据可以提高多模态大语言模型在各种任务中的整体性能。当前的多模态指令跟随数据通常是由强大的 GPT-4 通过 Self-Instruct 技术构建的。虽然这些自动生成的指令数据具有多样性，但在质量方面仍有提升空间。未来，纳入高质量的多模态任务数据（包括视频、图像和音频），以增强指令微调的多模态大语言模型的综合能力将是有益的。

视觉信息应与人类指令交互：先前的工作 InstructBLIP 尝试将文本问题输入到 Q-Former 中，以优化其在特定视觉问答任务中的性能，从而取得了优异的结果。这些问题通过利用 Q-Former 架构中的自注意力层，促进了视觉信息的提取。与 BLIP-2 不同，LMEye 专注于提取对大语言模型编码请求具有高信息价值的图像特征，实现了大语言模型与视觉信息之间的动态交互。此外，我们引入了多样的多模态指令跟随数据来训练 LMEye，使其能够适应广泛的人类查询。因此，大语言模型可以利用丰富的视觉信息有效地完成不同的任务。总之，使视觉信息与人类指令交互对于提高多模态大语言模型的能力是有效的。

幻觉问题：虽然多模态大语言模型在生成详细的图像描述或艺术品分析时，很容易产生与客观图像和常识不符、无意义的片段，或者捏造事实，如图 6 中图像的详细描述所示。为了解决这个问题，未来我们可以引入对齐技术（如人类反馈强化学习（RLHF））、检索增强或多模态思维链（COT），以提高生成内容的真实性。

LMEye：面向大语言模型的交互式感知网络-AI.x社区

图 6一个展示多模态大语言模型中存在的幻觉问题的案例。蓝色文字代表 LMEye 和 LLaVA 的错误回答。

六、局限性

尽管我们的模型努力提高与人类查询的对齐程度，但需要承认的是，它们并不能完全对齐，也并非完全安全。尽管我们努力提高输出质量，但我们的模型在避免生成有毒或有偏见的内容、捏造事实和其他不良输出方面仍然存在局限性。在某些情况下，模型可能会无意中生成冒犯性、歧视性或有害的输出，这可能归因于训练数据中的偏差或大语言模型本身的能力问题。此外，由于可用的多模态指令跟随数据在质量和多样性方面的限制，模型可能会对某些查询提供错误的响应。

七、结论

我们提出了 LMEye，为大语言模型附加了一个类似人眼的交互式感知网络，旨在通过大语言模型与视觉信息之间的动态交互实现大型视觉语言模型。我们方法的核心是开发基于请求的视觉信息搜索（RVIS）模块。该模块促进了大语言模型与明确的视觉信息之间的直接交互，摆脱了传统大语言模型仅依赖内部自注意力计算的方式。我们的方法特别值得注意的是，与现有的更大的多模态大语言模型相比，它用更少的参数实现了这种增强的功能。实验结果表明，在两个评估基准（MMBench 和 SEED-Bench）上，我们的方法以更少的参数取得了优于更大的多模态大语言模型的性能。消融研究验证了 LMEye 变体在开放世界视觉问答、详细图像描述和多模态推理任务上的有效性。我们在不同领域的广泛测试进一步证明了 RVIS 框架具有高度的可扩展性和适应性。它不仅在不同的数据类型（包括文本、图像和视频）上有效，而且在各种大语言模型上也有效。这种可扩展性和适应性突显了 RVIS 作为视觉语言模型开发领域变革性工具的潜力。

本文转载自公众号AIRoobt ，作者：Yunxin Li等

原文链接：https://mp.weixin.qq.com/s/jP_WfaxAt-8dnhPo-3fZ9g

标签

多模态大语言模型

视觉语言学习

交互式感知网络

51CTO

51CTO博客

51CTO学堂

LMEye：面向大语言模型的交互式感知网络原创

摘要

一、引言