
GPT-4o图像生成能力全揭秘:背后竟藏自回归+扩散架构?北大&中山等开源GPT-ImgEval
文章链接:https://arxiv.org/pdf/2504.02782
代码&数据集:https://github.com/PicoTrex/GPT-ImgEval
亮点直击
- GPT-ImgEval,首个通过三个成熟基准(包括文本到图像生成、编辑和理解引导生成)定量和定性评估GPT-4o图像生成能力的基准测试。全面结果突显了GPT-4o在图像生成和理解能力上优于先前模型的卓越表现。
- 基于测试结果深入分析,包括:(1)通过基于分类器的图像分析研究GPT-4o的潜在底层架构;(2)对其弱点的系统性实证研究,包括常见失败模式和生成伪影。
- 提供了GPT-4o与Gemini 2.0 Flash在多轮图像编辑能力上的对比研究。通过使用现有SOTA图像取证模型评估GPT-4o生成图像的可检测性,探讨了AIGC安全问题,表明由上采样过程中引入的可见伪影,此类输出仍可被区分。
总结速览
解决的问题
- 缺乏系统评测:当前对GPT-4o在图像生成、编辑及知识驱动的语义合成能力的系统性评估不足。
- 架构不透明:GPT-4o的内部图像解码架构(如扩散模型vs.自回归模型)尚未明确。
- 局限性分析:需揭示GPT-4o在生成控制、编辑一致性、多语言支持等方面的具体缺陷。
- 安全与检测:评估生成图像的可检测性及潜在安全风险。
提出的方案
- 评测基准GPT-ImgEval:
- 生成质量(GenEval数据集)
- 编辑能力(Reason-Edit数据集)
- 知识驱动合成(WISE数据集)
- 架构推测方法:
- 训练二分类器区分扩散模型与自回归模型生成图像,验证GPT-4o的解码方式。
- 结合生成图像特征,推测其完整架构(如视觉编码器+扩散头)。
- 多维度对比实验:
- 与Gemini 2.0 Flash比较多轮编辑的指令理解、一致性、响应速度等。
- 安全分析:
- 利用现有图像取证模型检测生成图像的伪造痕迹(如插值伪影、水印特征)。
应用的技术
- 评测框架:基于现有数据集(GenEval、Reason-Edit、WISE)构建多任务评估流程。
- 分类模型:通过监督学习训练扩散/自回归生成图像的判别器,反推GPT-4o架构。
- 可视化分析:人工与自动化结合,识别生成图像的常见伪影(如比例失调、色彩偏差)。
- 跨模型对比:定量(指标)与定性(案例)分析GPT-4o与Gemini 2.0 Flash的差异。
- 取证工具:应用SOTA图像伪造检测模型(如基于插值伪影或频域特征的方法)。
达到的效果
- 性能优势:
- GPT-4o在生成质量、编辑控制、知识推理上显著优于现有方法。
- 支持细粒度属性控制与复杂场景合成(如多对象组合)。
- 架构推测:
- 实证表明GPT-4o可能采用扩散模型头(非VAR类架构)进行图像解码。
- 局限性揭示:
- 编辑时内容保留不稳定、比例控制困难、高分辨率过平滑、非英文文本生成不足等。
- 安全发现:
- 生成图像易被现有取证模型检测(可能因超分插值伪影或隐式水印)。
- 行业影响:
- 提供可复现的基准,推动生成模型研究;为实际应用(如内容创作)提供改进方向。
GPT-ImgEval 的总体工作流程,包括 GPT-4o 图像生成、评估和分析
GPT-ImgEval评估基准
GPT-4o图像生成设置
数据集本文使用三个核心数据集评估GPT-4o的图像生成能力:GenEval、Reason-Edit和WISE。传统自动评估指标(如FID或CLIPScore)主要衡量整体图像质量或图文对齐度,但无法胜任细粒度或实例级分析。(1) GenEval采用以物体为中心的框架评估构图属性,包括物体共现、空间排列、计数和色彩一致性,适合评估GPT-4o基于文本输入的图像合成控制能力;(2) Reason-Edit是专为基于文本指令的图像编辑设计的数据集,涵盖七类编辑挑战,测试模型的空间理解、尺寸调整、色彩修改和常识推理能力;(3) WISE作为世界知识驱动的语义评估基准,超越简单的词到像素映射,要求模型生成基于现实知识(如文化背景、时空推理和科学理解)的图像。
自动化脚本截至2025年4月3日,GPT-4o尚未提供官方的图像生成API。为此,研究者们开发了直接与GPT-4o网页界面交互的定制自动化脚本。这些脚本通过模拟用户输入自动提交提示词并获取生成图像,支持大规模可重复的模型能力评估。为减少同窗口上下文对模型能力的干扰,每个提示词对应的图像合成均在新窗口完成。
文本到图像生成
定量结果下表1汇总了GenEval上文本到图像(T2I)生成的评估结果,涵盖两类模型:(1) 使用冻结文本编码器的直接扩散方法;(2) 利用LLM/MLLM增强生成的方法。数据显示,GPT-4o以0.84的总分显著优于冻结文本编码器方法和LLM/MLLM增强方法。与最先进的基于推理的方法GoT相比,GPT-4o在计数任务(0.85)、色彩识别(0.92)、空间定位(0.75)和属性绑定(0.61)上均表现突出,彰显了其在空间推理和属性绑定上的优势。
定性结果下图3展示了GPT-4o在GenEval基准六类核心任务中的生成示例:
- 单物体与双物体任务中,GPT-4o准确生成符合提示的清晰物体(如"香蕉照片"或"两个时钟照片");
- 计数任务成功渲染正确数量的物品(如"三个运动球"或"三个手提包"),体现可靠的数值理解;
- 色彩示例显示模型能将特定颜色与物体正确关联(如"蓝色电视照片"和"黑色背包照片");
- 位置示例(如"胡萝卜在橙子左侧"和"奶牛在停止标志左侧")凸显其空间推理与物体布局能力;
- 属性绑定任务中,模型有效关联多物体属性,生成如"电脑鼠标和勺子照片"等无实体错位的合理场景。
这些案例共同证明GPT-4o能解析复杂构图提示,生成语义准确、视觉连贯的图像,反映强大的多模态推理与规划能力。
图像编辑
定量结果本文使用Reason-Edit基准评估GPT-4o在图像编辑任务上的表现,这是一个用于定性评估图像编辑性能的基准。本文采用GPT Score来评估图像编辑任务中的指令遵循程度和非编辑区域的一致性。
如下图4柱状图所示,GPT-4o在Reason-Edit基准上显著优于所有现有图像编辑方法,取得了0.929的优异成绩。这相比2025年前最佳方法SmartEdit(0.572)提升了+0.357,突显了模型强大的指令遵循能力和细粒度编辑控制。与GoT(0.561)、CosXL-Edit(0.325)和MagicBrush(0.334)等先进模型相比,GPT-4o为文本引导的图像编辑设立了新标准。GPT-4o在指令遵循和图像生成质量两方面都展现出强劲性能。这一性能的显著提升展示了将大型多模态语言模型整合到图像编辑任务中的潜力。
GPT-4o的图像编辑过程经常在尺寸、色调等全局属性上表现出不一致性。然而,这些差异在GPT-eval Score评估框架下往往被掩盖,可能导致无法充分捕捉这些变化,从而在评估模型真实性能时引入偏差。
定性结果下图5中展示了图像编辑的定性比较,说明了GPT-4o在一系列复杂图像编辑指令中的质量优势。对于诸如物体替换("将含维生素最多的食物替换为橙子")、物体移除和属性特定替换("将中间的熊猫改成猫")等任务,GPT-4o始终能生成语义准确、视觉连贯且符合上下文的结果。与InstructPix2Pix、MagicBrush和SmartEdit-7B等方法相比,GPT-4o展现出更高的空间一致性、更好的编辑定位能力以及最小的附带修改。此外,GPT-4o生成的图像整体质量显著超越所有先前方法。
在"镜子里的猫"示例中,只有GPT-4o成功编辑了反射效果——在保留现实背景的同时,在镜中生成了姿势匹配的老虎。这一任务需要对语义和场景结构的细粒度理解。
世界知识引导的语义合成
由于现有研究和评估标准主要关注图像真实性和浅层文本-图像对齐,缺乏对文本到图像生成中复杂语义理解和世界知识整合的综合评估,除了上述两个基准外,本文还在最新的WISE基准上进一步评估了GPT-4o。此类任务要求图像生成模型在生成前具备足够的世界知识和推理能力。例如,给定提示"章鱼面对危险时的行为",模型必须理解章鱼释放墨汁的生物学反应。同样,提示"巴西的一座巨型雕塑,张开双臂俯瞰下方的城市"要求模型识别并生成标志性的巴西地标——科尔科瓦多山顶的基督像。
定量结果如下表2所示,GPT-4o在整体WiScore上显著优于现有的专业T2I生成方法和基于统一MLLM的方法。GPT-4o将卓越的世界知识理解能力与高保真图像生成相结合,在多模态生成任务中展现出双重优势。这一性能差距可归因于GPT-4o强大的世界知识保持和推理能力,使其能够在图像生成过程中有效整合知识。结果表明,在当前统一的多模态生成框架中,理解和推理世界知识的能力并不自动转化为以足够保真度和准确性视觉呈现这些知识的能力——而GPT-4o恰恰实现了这一点。
定性结果下图6中进行了定性比较,展示了GPT-4o在世界知识引导语义合成的多个子领域中的卓越表现。
例如,当输入提示"美国的国家象征猛禽"时,GPT-4o能正确生成白头海雕图像。对于"中世纪骑士在比武大会中佩戴的特殊头盔样式"的提示,它准确生成了带有狭窄眼缝的全封闭式中世纪头盔。在"孩子和树叶分别站在跷跷板两端"的案例中,GPT-4o通过生成合理倾斜的跷跷板,展现出对重量不平衡的理解。总体而言,GPT-4o能有效推断提示背后的语义意图,并生成高质量、语义对齐的图像。
GPT-4o的潜在架构
本文提出三种可能的图像生成架构假设(下图1),这些假设受到现有统一架构的启发。学界争论焦点在于生成头(图像解码器)的选择,即架构(a)与架构(b)之间的抉择。下面将详细分析这两种架构,并提供我们的判别依据。
假设1:基于自回归的渐进式预测架构该假设认为GPT-4o采用图1(b)所示的自回归(AR)架构,其通过"next-scale prediction"策略逐步优化图像:首先生成低分辨率模糊基底,再渐进增强为高清输出。这种设计受到近期AR生成方法的启发,与GPT-4o生成界面中观察到的图像逐步清晰化现象相符。
假设2:结合扩散头的混合架构此假设推测GPT-4o采用图1(a)的混合设计:基于Transformer的AR主干网络配合扩散生成头。在该框架中,AR模型首先生成中间视觉标记或潜在表示,随后作为条件输入传递给扩散模型进行最终图像解码(流程:token→[Transformer]→[扩散模型]→像素)。这一假设与OpenAI系统卡片中的描述一致,也符合当前结合AR语义优势与扩散模型视觉保真度的研究趋势。下图8中发现OpenAI官方提供的"彩蛋证据",明确标注了"token→[Transformer]→[扩散模型]→像素"的生成流程。
混合架构能合理解释GPT-4o的多个特性:既具备扩散模型标志性的高画质、丰富纹理和自然场景表现力,又保持与提示词的强语义对齐(表明存在基于语言的AR阶段)。该结构也解释了局部编辑时的"全局偏移"问题——当条件信号较弱或较粗糙时,扩散模型难以将修改约束在小范围内。
架构验证实验为探究GPT-4o的实际架构,本文设计了基于分类模型的判别方法(下图9),通过实证研究验证视觉解码器类型,并基于生成图像特征推断其视觉编码器组件。
视觉解码器分析从GenEval基准选取相同提示词,分别用AR头和扩散头各生成10,000张图像,训练二分类器进行区分。当输入GPT-4o生成图像时,分类器持续判定为扩散模型输出,为"假设2"提供了强实证支持。
视觉编码器推测根据UniTok的研究,图像向量量化(VQ)会损害模型理解能力,因此我们推测GPT-4o可能采用类似MAR的连续标记方案。尽管无法获取确切架构,本文提出了图7所示的四种可能结构。
局限性分析
基于评估结果及对GPT-4o生成图像的定性检查,我们发现了该模型在图像生成与编辑过程中反复出现的缺陷,这些缺陷揭示了其当前的技术局限。以下总结GPT-4o图像生成过程中暴露的主要问题类别,重点指出该模型在保真度、一致性和可控性方面未达预期的领域。本总结不限于前文三个数据集的评估结果,我们将逐类详细解析这些缺陷现象。
图像生成不一致性GPT-4o在生成图像时往往难以完美复现未要求修改的输入图像。即使提示词明确要求"不作更改",模型仍可能引入细微变动,这种现象在图像尺寸方面尤为突出——输出图像可能出现不可预测的宽高比变化、自动边缘裁剪或重新缩放。此类行为严重限制了需要基于原图尺寸进行精确构图或空间对齐的应用场景。
高分辨率与过度细化局限如下图10(b)所示,GPT-4o存在明显的超分辨率或图像增强操作倾向。即便提示词明确要求生成模糊或低分辨率图像,模型仍频繁输出清晰度与细节被强化的结果。这种行为反映出其对高频视觉信息的优先处理倾向,可能源于内部上采样模块或训练数据偏差。因此,GPT-4o难以主动生成模糊、失焦或低细节图像,在还原特定艺术风格或预期视觉效果时存在局限。此外,模型常为图像添加过量细节(例如精确呈现爱因斯坦面部的每道皱纹),进一步凸显其追求高细节合成的内在偏好。
笔刷工具局限尽管GPT-4o集成了用于局部编辑的笔刷工具,但其底层流程仍涉及整图重新生成。因此即使仅编辑微小区域,输出图像也可能在纹理、色彩或细节等全局属性上出现非预期变化。相比之下,ComfyUI等工具支持真正的局部修复,在实际编辑应用中能提供更稳定的控制。此外,GPT-4o生成图像常呈现明显的暖色调偏差——在缺乏明确提示约束时,模型倾向于使用以黄、橙色为主导的暖调色板。虽然这类输出在某些场景下具有视觉吸引力,但这种偏差限制了生成图像的风格多样性,该倾向可能源于训练数据中不平衡的色彩分布或大规模数据集固有的风格偏好。
复杂场景生成失败尽管GPT-4o在生成复杂场景方面表现卓越,但在处理多人交互场景及人物-物体互动时仍存在显著问题。如图10(d)所示,黄框标出的人物姿态或解剖结构异常,红框则标示出空间关系不合逻辑的物体重叠。这些局限反映出模型在高视觉复杂度下进行空间推理和保持图像一致性的困难。
非英语文本生成局限GPT-4o在文本生成方面优势显著,尤其在英语字体渲染的清晰度与一致性上远超同类模型。但其在复杂场景中生成中文文本的能力仍然有限。如图10(e)所示,模型在生成中文标识时常出现字体错误或误用繁体字等问题。这表明GPT-4o在非英语文本生成方面仍面临挑战,这种差距可能源于训练数据中英文与中文的不平衡分布,以及汉字本身更高的结构复杂性和语境依赖性。
更多讨论
GPT-4o 与 Gemini 2.0 Flash 的多轮图像生成对比分析
为了与另一款强大的商业生成模型进行比较,对 GPT-4o 和 Gemini 2.0 Flash 进行了评估,重点考察图像编辑的一致性、指令理解能力、多轮图像编辑能力以及计算效率。
以下是主要发现:
- 编辑一致性:随着编辑次数的增加,两种模型在一致性方面的表现均有所下降,但 GPT-4o 的表现显著优于 Gemini。例如,在仅要求更改椅子颜色的任务中,GPT-4o 能准确地仅改变颜色,而 Gemini 则可能错误地修改椅子的形状,甚至位置。
- 指令理解能力:两种模型在理解并准确执行指令方面都未达到 100% 的准确率。在一个涉及电脑桌的测试中,当 GPT-4o 被要求修改椅子时,它却误删了墙上的装饰板。而 Gemini 的表现更为严重:它不仅删除了装饰板,还误删了场景中的其他物体。
- 多轮图像编辑对话:GPT-4o 支持多轮图像编辑对话,允许在多个图像状态之间持续互动与细化。相比之下,Gemini 2.0 Flash 似乎不原生支持该功能,每一步都需要手动重新上传上一张图像。
- 计算效率:在生成速度方面,Gemini 2.0 Flash 明显快于 GPT-4o,因此在对响应速度要求较高的应用场景中更具优势。
安全性:GPT-4o 生成的图像是否可检测?
GPT-4o 展现了出色的图像生成能力,往往能生成高度逼真的图像,甚至肉眼难以分辨。然而,我们的分析表明,这些图像仍然可以被当前的图像取证检测器识别出来。如表 3 所示,大多数现有的 AI 图像检测模型——包括两个当前最先进(SOTA)的方法 Effort与 FakeVLM——在识别 GPT-4o 生成图像方面的准确率均超过 95%。这说明尽管 GPT-4o 的图像逼真度很高,其生成结果依然在现有 SOTA 检测模型的识别范围之内。
GPT-4o 图像可检测性的一个潜在来源在于其内部的超分辨率处理机制。观察到,即便在明确要求保留图像模糊或低清晰度的前提下,GPT-4o 仍然会持续输出清晰、高分辨率的图像。例如,当输入一张模糊图片并要求“保持不变”时,GPT-4o 却返回了一张被锐化、分辨率更高的版本。这表明模型内部可能存在内置的超分辨率机制。进一步支持这一结论的是,专为检测上采样伪影设计的取证模型 NPR 在检测 GPT-4o 图像样本时达到了 99% 的准确率。这意味着 GPT-4o 生成的图像中可能包含一些由于后处理(如图像放大)引入的、易被识别的伪影特征。
除了技术特征外,GPT-4o 还实施了严格的安全防护机制。该模型坚决避免生成涉及儿童、可识别人物面孔或受版权保护内容(如品牌标志)等内容,这与 OpenAI 强化的图像安全政策保持一致。这些限制不仅增强了用户的使用安全性,也体现了在生成式 AI 应用中负责任的设计实践。
结论
本文介绍了GPT-ImgEval——首个全面评估GPT-4o图像生成能力的基准测试体系,涵盖三大关键维度:(1) 生成质量(通过GenEval评估);(2) 基于指令的编辑能力(通过Reason-Edit评估);(3) 理解引导生成能力(通过WISE评估)。基于这些评估,我们提出基于模型的分析方法以推断GPT-4o的底层架构,并通过详细研究揭示其缺陷与常见失败模式。本文进一步在多轮图像编辑任务中将GPT-4o与Gemini 2.0 Flash进行对比,并评估GPT-4o生成图像的检测难度。本研究旨在提供有价值的洞见和标准化基准,以启发未来研究、增强可复现性,并推动图像生成及其他领域的创新发展。
本文转自AI生成未来 ,作者:AI生成未来
