
世界知识赋能文生图模型!港科大开源World-To-Image:自己上网搜图学习,准确率飙升8%!
文章链接:https://arxiv.org/pdf/2510.04201
Git链接:https://github.com/mhson-kyle/World-To-Image
效果展示
亮点直击
- 智能体式优化框架。提出了一种诊断与选择智能体,它在语义分解、概念替换和基于网页证据的多模态对齐之间进行选择。
- 面向T2I的世界知识注入。将提示词优化扩展到文本之外,通过整合图像检索与条件生成来处理新概念,在无需重新训练的情况下实现语义保真度SOTA。
总结速览
解决的问题
- T2I 模型的知识时效性问题:由于预训练数据存在知识截止点,模型在面对新颖或分布外(OOD)概念时生成质量显著下降。
- 现有方法局限:
- 扩充或微调模型代价高且无法快速适应新知识。
- 现有提示词优化(prompt optimization)方法只在文本表层调整,无法弥补模型缺乏语义理解的问题。
提出的方案
- 提出WORLD-TO-IMAGE (W2I)框架,通过智能体驱动的世界知识弥补T2I模型的知识盲区。
- 将提示词优化扩展为一个智能决策过程(agentic decision process),包含:
- 判断生成失败的原因(渲染问题或语义理解缺失)。
- 针对语义缺失,动态调用外部知识源(网页检索)以弥补模型认知。
- 不修改基础模型权重,仅通过优化输入提示及多模态信息增强生成语义对齐。
应用的技术
- Web Agent 检索机制:自动在网络上搜索与新概念相关的文本定义与代表性图像。
- 语义分解与替换:
- 对提示语进行语义分解(semantic decomposition),提取核心概念。
- 对模型不熟悉的概念进行概念替换(concept substitution),用模型可理解的同义表达重写提示。
- 多模态视觉对齐:通过检索到的图像进行视觉条件输入(reference-based conditioning),增强生成的语义真实性。
- 轻量化失败分析:利用探测性生成(probe generations)和概念覆盖检测判断模型理解风险。
- 自动化评估:采用 LLM-Grader 和 ImageReward 等现代指标评估语义保真度。
达到的效果
- 语义一致性显著提升:在自建的NICE benchmark上,提示语准确率提升+8.1%。
- 视觉美学质量保持领先:在语义对齐的同时,生成图像的视觉质量依然与SOTA模型相当。
- 高效优化:平均在3次迭代内即可达到最优结果。
- 可扩展性强:无需修改或微调基础生成模型,即可使T2I系统动态反映现实世界变化。
WORLD-TO-IMAGE:基于智能体的世界知识驱动 T2I 生成
通过这种方式,本文整合了语言空间优化(通过提示词精炼)和视觉空间优化(通过示例检索),使 T2I 模型在推理过程中能够适应新概念。假设这种语言空间与视觉空间的联合优化相辅相成,并产生强大的协同效应。本文的方法在算法 1 中进行了形式化说明。
实验
本节首先描述实验设置,然后呈现结果分析,并将其与本文的假设对齐。
实验设置
模型。本文比较了七个系统:Stable Diffusion 1.4、Stable Diffusion 2.1、Stable Diffusion XL(Base)、OmniGen2、使用 Stable Diffusion XL(Base)和 OmniGen2 的 Promptist 提示词优化pipeline,以及本文的智能体式pipeline World-To-Image。
SDXL-Base 在通用提示词上略优于 OmniGen2。然而,在需要为不熟悉的实体或细粒度属性进行条件对齐的参考条件设置中,OmniGen2 展现出更强的条件一致性和稳定性,从而实现更高的提示词准确率(Accuracy-to-Prompt)。因此,采用 OmniGen2 作为智能体式pipeline的生成骨干,同时报告 SDXL-Base、SD2.1、SD1.4 和 Promptist 作为完整性的基线。本文包含 SDXL-Base、SD2.1 和 SD1.4,因为它们在图像生成社区中仍被广泛采用,是强有力的基线,并为比较现代系统提供了代表性基准。
数据集。为了评估本文的智能体式图像生成pipeline——系统会调用 API 获取基础生成器不太可能理解的概念的参考图像——使用三个数据集:Lexica、DiffusionDB 和 NICE(Niche Concept Evaluation)基准。虽然现有基准主要关注通用提示词,NICE 专门针对稀有、组合性和时间敏感的概念,提供了一个严苛的环境来测试检索和对齐能力。对于每个子类别,搜索了流行和新兴主题,并使用 GPT-5 对其进行优化,确保提示词的清晰性和多样性。
通用基线。Lexica 和 DiffusionDB 被广泛用于对文本到图像系统在广泛、分布内提示词上的基准测试。虽然它们包含偶尔的知识产权或名人提及,但这些情况是偶发的,而不是这些语料库的主要关注点;因此,它们低估了本文的pipeline针对的长尾、时间敏感或组合性概念。
策划的 NICE 基准。为了严格测试检索能力,本文构建了一个包含 100 条提示词的评估集,涵盖五个子类别: (1) Meme,(2) 实时新闻与事件,(3) 流行文化与知识产权,(4) 艺术家/名人/影响者,(5) 小众概念(每类 20 条提示词)。提示词旨在 (i) 混合两个不同概念,或 (ii) 引用 2024 年以后的实体和事件,形成分布外案例,这些案例需要外部视觉证据。此设计迫使协调智能体调用图像检索 API,并基于检索到的示例进行生成对齐。
评估指标。本文在通常对基础生成器而言属于分布外的困难/小众提示词上评估本文的增强检索智能体pipeline。为了在大规模上捕捉语义保真度和人类感知质量,报告了 LLM Grader 和人类偏好奖励(Promptist Reward 与 ImageReward),以及 HPSv2。
LLM Grader。遵循相关方法,基于 LLM 的评判者对五个维度进行评分:提示词准确性(Accuracy-to-Prompt)、创造性与原创性(Creativity & Originality)、视觉质量与真实感(Visual Quality & Realism)、一致性与连贯性(Consistency & Cohesion)、情感/主题共鸣(Emotional/Thematic Resonance),并给出总体汇总。在涉及小众、组合性或时间敏感概念时衡量语义对齐的主要指标。
人类偏好。Promptist Reward 和 ImageReward 是基于人类偏好数据训练的奖励模型,用于评估文本–图像对;将它们的总和作为人类偏好奖励(Human Preference Reward)。HPSv2 是另一种基于人类偏好的评分模型。这些作为感知质量和用户偏好的自动智能体,与 LLM Grader 互补,以实现大规模、可重复的比较。
结果
主要结果总结如下表 1 所示。在研究的所有三个数据集上,本文提出的方法 W2I 一致优于所有基线。总体性能提升在 NICE 数据集上最为显著(+5.8%),相比之下,在更广泛的 DiffusionDB 上提升 +2.4%,在 Lexica 上提升 +3.4%。这验证了本文的智能体pipeline在处理其设计目标的分布外提示词时特别有效。在提示词准确性(Accuracy-to-Prompt)方面,提升最为显著:W2I 在本文的数据集上将得分提升了 +8.1%,而在 DiffusionDB 上提升 +3.4%,在 Lexica 上提升 +6.4%。这与本文的核心假设一致,即涉及新概念的提示词最受益于多模态对齐,而 W2I 通过联合利用检索与文本优化实现了这一点。
图像质量与人类偏好。在下表 2 中,本文研究了多模态提示词优化对图像质量的影响。本文关注客观图像质量得分和基于人类偏好的评估。W2I 在这两个维度上均保持了强劲表现,优于所有其他基线。这些发现表明,本文的方法在追求语义准确性的同时并未牺牲视觉保真度,而是实现了两者之间的良好平衡。
新概念上的表现。为了进一步验证本文框架在分布外提示词上的有效性,分析了其在 NICE 基准五个不同子类别中的表现。如下图 5 所示,本文的方法在每个类别中均持续优于所有基线,包括强大的 Promptist 优化器和基础 OmniGen2 模型——从 Meme、实时事件到小众知识产权。这一结果证明了框架的鲁棒性,并确认其优越性能源自通过智能体检索与对齐处理广泛未见概念的专门能力。
消融研究。为了区分本文优化pipeline中不同组件的贡献,对优化pipeline的每个组件进行了消融(下表 3)。本文的完整pipeline在我们提出的数据集上取得了最佳结果。仅依赖图像检索在处理更复杂的提示词时可能失败,因为生成过程可能过度依赖参考图像而未能完全对齐任务规范。相反,仅进行提示词优化只能改善与文本指令的一致性,但图像条件可以为模型提供更具体的参考。结合这两个组件的协同作用在所有指标上产生了显著的提升,这表明虽然每种方法单独强调不同的改进方向,只有它们的结合才能释放基础模型的全部潜力。
增加优化步骤的影响。 本文还分析了将优化步骤扩展到 10 步的影响,并在下图 6 中绘制了每次迭代的性能提升曲线。性能在各迭代中持续提升,前两次迭代的提升最为显著。这支持了我们默认使用两步迭代的决策,在性能与效率之间取得了平衡。我们还观察到 IRA 通常在早期迭代中被调用,而 POA 主要在后期迭代中调用,这表明图像检索在早期提供了强有力的提升,而随后的提示词优化则细化了输出以获得进一步的提升。
讨论
本文的发现引发了几个重要的讨论点。新概念上的显著提升表明,预训练生成模型往往已经具备表示新实体的潜在能力,但需要合适的多模态信号来激活它们。这提示了一个更广泛的机会:不仅仅是扩展模型本身,改进接口机制(如检索和自适应提示)可能释放显著的性能提升。
此外,消融研究显示了基于文本和图像的优化之间的强协同作用,有效地将提示词优化的视野扩展到多模态提示,以利用它们的互补优势。
本文转自AI生成未来 ,作者:AI生成未来
