MMIE:用于大型视觉语言模型的大规模多模态交错理解基准(ICLR 2025)
原创
摘要交错多模态理解与生成能力——使模型能够以任意顺序生成和解释图像与文本——已成为多模态学习的关键领域。尽管已有显著进展,但对这一能力的评估仍显不足。现有基准在数据规模、范围和评估深度上存在局限,而当前评估指标往往成本高昂或带有偏见,在实际应用中缺乏可靠性。为应对这些挑战,我们推出MMIE,这是一个大规模知识密集型基准,用于评估大型视觉语言模型(LVLMs)的交错多模态理解与生成能力。MMIE包含20,000个精...