将所有有用的信息整合到一张图片中：大型多模态模型能够进行图片内的学习

zhangyannni

发布于 2024-3-28 12:00

浏览

0收藏

将所有有用的信息整合到一张图片中：大型多模态模型能够进行图片内的学习-AI.x社区

论文题目：

All in a Single Image: Large Multimodal Models are In-Image Learners

论文链接：

https://arxiv.org/abs/2402.17971

开源链接：

https://github.com/AGI-Edgerunners/In-Image Learning

01 动机和背景

近年来，大语言模型取得了显著的成功。尽管 GPT-4V 有强大的文本理解和图片输入能力，但仍存在许多问题。例如，在读取一张复杂图片时，无法完全理解图像中呈现的信息。在本文中，我们提出了一种新的上下文学习机制——In-Image Learning，它将所有可能有用的信息，包括样例，视觉线索和思维链等等整合在一张图片上，有助于释放 GPT-4V 的性能。

将所有有用的信息整合到一张图片中：大型多模态模型能够进行图片内的学习-AI.x社区

02 方法

T-ICL with additional image-to-text models（T-ICL-Img）：为了将大型语言模型（LLMs）从自然语言处理（NLP）任务适配到多模态任务，一个常见的策略是将相应的图像转换成文本描述。

2. Visual-text interleaved in-context learning（VT-ICL）：尽管 T-ICL-Img 取得了显著的效果，但在将视觉输入转换为文本描述时存在丢失信息的风险。

为了避免这个问题，可以为上下文学习准备交错的图文对，直接整合到大语言模型（LLMs）中。

In-Image Learning（IIL）：GPT-4V 在理解图像中的符号和数字等视觉线索方面具有很高的熟练度。

在本文中，我们将样例范本、视觉线索、思维链整合在一张图片上。将有价值的信息整合到单一图像中提供了三个主要好处。

首先，它有效地传达了仅凭文字无法准确描述的复杂图像。其次，它允许信息被放置在图像的任何位置，不像之前的上下文学习方法那样对信息的排序敏感。第三，仅使用一个图像作为输入减少了对冗长输入的需求，从而减轻了输入负担并避免超出大模型（LMMs）的输入限制（注意：我们没有包含任何提示在测试样本上）。

Selection：本文提出的 In-Image Learning 擅长处理仅用文本无法准确描述的复杂图像，而 VT-ICL 能更好地利用文本信息来提升那些可以被文本轻易描述的图像的性能。

为了结合这两种方法的优点，我们使用 GPT-4V 作为一种选择器。首先提示 GPT-4V 为给定数据示例的图像生成描述。然后让 GPT-4V 根据生成的描述与图像进行对比打分，范围从 1 到 4 分。1 或 2 分表明图像难以描述，使其更适合 In-Image Learning 方法，3 或 4 分表明图像易于描述，使用 VT-ICL 方法更适合这个数据示例。

将所有有用的信息整合到一张图片中：大型多模态模型能够进行图片内的学习-AI.x社区