将所有有用的信息整合到一张图片中:大型多模态模型能够进行图片内的学习
论文题目:
All in a Single Image: Large Multimodal Models are In-Image Learners
论文链接:
https://arxiv.org/abs/2402.17971
开源链接:
https://github.com/AGI-Edgerunners/In-Image Learning
01 动机和背景
近年来,大语言模型取得了显著的成功。尽管 GPT-4V 有强大的文本理解和图片输入能力,但仍存在许多问题。例如,在读取一张复杂图片时,无法完全理解图像中呈现的信息。在本文中,我们提出了一种新的上下文学习机制——In-Image Learning,它将所有可能有用的信息,包括样例,视觉线索和思维链等等整合在一张图片上,有助于释放 GPT-4V 的性能。
02 方法
- T-ICL with additional image-to-text models(T-ICL-Img):为了将大型语言模型(LLMs)从自然语言处理(NLP)任务适配到多模态任务,一个常见的策略是将相应的图像转换成文本描述。
2. Visual-text interleaved in-context learning(VT-ICL):尽管 T-ICL-Img 取得了显著的效果,但在将视觉输入转换为文本描述时存在丢失信息的风险。
为了避免这个问题,可以为上下文学习准备交错的图文对,直接整合到大语言模型(LLMs)中。
- In-Image Learning(IIL):GPT-4V 在理解图像中的符号和数字等视觉线索方面具有很高的熟练度。
在本文中,我们将样例范本、视觉线索、思维链整合在一张图片上。将有价值的信息整合到单一图像中提供了三个主要好处。
首先,它有效地传达了仅凭文字无法准确描述的复杂图像。其次,它允许信息被放置在图像的任何位置,不像之前的上下文学习方法那样对信息的排序敏感。第三,仅使用一个图像作为输入减少了对冗长输入的需求,从而减轻了输入负担并避免超出大模型(LMMs)的输入限制(注意:我们没有包含任何提示在测试样本上)。
- Selection:本文提出的 In-Image Learning 擅长处理仅用文本无法准确描述的复杂图像,而 VT-ICL 能更好地利用文本信息来提升那些可以被文本轻易描述的图像的性能。
为了结合这两种方法的优点,我们使用 GPT-4V 作为一种选择器。首先提示 GPT-4V 为给定数据示例的图像生成描述。然后让 GPT-4V 根据生成的描述与图像进行对比打分,范围从 1 到 4 分。1 或 2 分表明图像难以描述,使其更适合 In-Image Learning 方法,3 或 4 分表明图像易于描述,使用 VT-ICL 方法更适合这个数据示例。
03 实验结果
我们在3个数据集上进行了测试,分别是:(1)MathVista;(2)HallusionBench;(3)VQA.
MathVista minitest 数据集上不同方法和模型上的测试结果如下:
HallusionBench 数据集上不同方法和模型上的测试结果如下:VQA 数据集在不同方法和模型上的测试结果如下:我们使用 MathVista 数据集上的随机 100 个数据进行消融实验,结果如下,说明 In-Image Learning 方法能激发 GPT-4V 的潜力。
此外,我们为了探究其他影响性能的因素。对分辨率比例、示例数量及测试例子位置等各种因素下,使用 VQA 数据集进行了测试,结果如下:04 总结
在本文中,我们提出了 In-Image Learning 的方法,以增强 GPT-4V 的能力。In-Image Learning 将示范例子、视觉线索和指令结合到单一图像中。
In-Image Learning 擅长处理复杂图像,而 VT-ICL 更适合那些可以轻易通过文本描述的图像。为了在多模态任务中利用这两种方法的优势,我们提议使用 GPT-4V 作为选择器,以确定给定任务中每个多模态数据示例的适当方法。
通过在 MathVista 和 Hallusionbench 上的全面实验,我们展示了 In-Image Learning 在复杂推理任务中的有效性,以及在减轻语言幻觉和视觉错觉方面的作用。我们还检查了图像分辨率和示范例子位置等因素的影响,进一步凸显了图像内学习的多功能性和潜力。
对于未来的工作,我们计划在更多的文字难以描述的任务上验证 In-Image Learning 的有效性,以及通过训练的方式来加强 In-Image Learning。
本文转自 PaperWeekly ,作者:让你更懂AI的