
还在担心不会写提示词?腾讯混元提出PromptEnhancer,可自动进行提示词改写生成高保真且风格多样图像
Hunyuan-PromptEnhancer 是一款基于腾讯混元模型构建的提示符重写工具。它可以在保留原始意图的同时重构输入提示符,使其更加清晰、层次分明、逻辑一致,适用于下游图像生成或类似任务。
- 保留关键元素(主题/动作/数量/样式/布局/关系/属性/文本等)的意图。
- 鼓励“总体-细节-总结”的叙述,首先描述主要元素,然后描述次要/背景元素,最后以简洁的风格/类型总结。
- 具有优雅回退的强大输出解析:优先考虑...;如果缺失,则删除...并提取干净的文本;否则回退到原始输入。
- 可配置推理参数(温度、top_p、max_new_tokens)用于平衡确定性和多样性。
PromptEnhancer 能够根据用户提示生成高保真且风格多样的图像。 该方法以 HunyuanImage 2.1 作为基础 T2I 模型,展现了其在照片级写实主义、数字艺术、抽象几何以及多语言图文生成等各个领域的多功能性。示例展示了如何将极少的用户输入转化为丰富细致的提示,从而生成高质量的视觉输出,弥合了用户意图与模型执行之间的差距。
相关链接
- 论文:https://arxiv.org/pdf/2509.04545
- 项目:https://hunyuan-promptenhancer.github.io
- 模型:https://huggingface.co/tencent/HunyuanImage-2.1/tree/main/reprompt
- 代码:https://github.com/Hunyuan-PromptEnhancer/PromptEnhancer
论文阅读
- 论文名:PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting
文本到图像 (T2I) 扩散模型的最新进展已展示出在生成高保真图像方面的卓越能力。然而,这些模型通常难以忠实地呈现复杂的用户提示,尤其是在属性绑定、否定和组合关系等方面。这导致用户意图与生成的输出之间严重不匹配。
为了应对这一挑战,论文推出了PromptEnhancer,这是一个新颖且通用的提示重写框架,它可以增强任何预训练的 T2I 模型,而无需修改其权重。与依赖于特定模型微调或隐式奖励信号(如 CLIP 分数)的先前方法不同,该框架将重写器与生成器分离。通过强化学习训练思路链 (CoT) 重写器来实现这一点,称之为 AlignEvaluator 的专用奖励模型为指导。AlignEvaluator 经过训练,可根据 24 个关键点的系统分类法提供明确且细粒度的反馈,这些分类法源自对常见 T2I 故障模式的全面分析。
通过优化 CoT 重写器以最大化 AlignEvaluator 的奖励,该框架学习生成更适合 T2I 模型解释的提示。在 HunyuanImage 2.1 模型上进行的大量实验表明,PromptEnhancer 显著提升了各种语义和构图挑战中的图文对齐效果。此外论文引入了一个全新的高质量人类偏好基准,以促进未来该方向的研究。
方法概述
PromptEnhancer 两阶段训练框架概述。框架训练一个通用的 Rewriter,以增强预训练的文本转图像 (T2I) 模型,而无需改变其权重。这是通过一个由专门的奖励模型引导的两阶段过程实现的。
- 第一阶段:SFT 用于重写器 初始化。CoT 重写器首先通过监督微调 (SFT) 进行初始化。在此阶段,模型通过使用标准的下一个标记预测损失对(用户提示,重新提示)进行训练,学习生成结构化的、思路链式的响应。这为后续的对齐阶段奠定了坚实的基础。
- 第二阶段:使用 GRPO 进行策略对齐。然后,使用基于生成奖励策略优化的强化学习循环对初始化后的重写器进行优化。对于给定的提示,CoT 重写器会生成多个候选重新提示。这些提示会被输入到冻结的 T2I 模型中以生成图像。然后,对齐评估器会评估每个(图像,提示)对并提供标量奖励。该奖励信号会优化重写器的策略,使其生成能够最大程度地提高图像与用户意图之间一致性的提示。
数据管道
Rewriter 训练数据的构建和过滤流程概述。 该流程包括用户提示模拟、基于 Gemini 的生成、人工参与的选择以及自动过滤,以确保高质量。
数据分析
数据集中评估维度的分布。(a)24 个细粒度关键点的详细百分比,按降序排列。(b)六个主要超类别的汇总百分比,由其组成关键点的百分比相加计算得出。两张图表中,颜色代表超类别,在视觉上将详细点与其更广泛的分类联系起来。
实验结果
PromptEnhancer 对 Prompt Following 准确率影响的定量评估。 该图展示了在 24 个不同语义类别中,使用和不使用 PromptEnhancer 框架的文本转图像生成准确率的比较分析。左侧面板显示了每个类别的百分点 (pp) 提升,突出显示了语法理解和构图推理等领域的显著提升(蓝色),以及其他领域的回归(红色)。右侧面板直接比较了绝对准确率得分,展示了基线模型(“不使用 Ours”)与增强模型(“使用 Ours”)的性能。
PromptEnhancer 对 Prompt Following 准确率影响的定量评估。 该图展示了在 24 个不同语义类别中,使用和不使用 PromptEnhancer 框架的文本转图像生成准确率的比较分析。左侧面板显示了每个类别的百分点 (pp) 提升,突出显示了语法理解和构图推理等领域的显著提升(蓝色),以及其他领域的回归(红色)。右侧面板直接比较了绝对准确率得分,展示了基线模型(“不使用 Ours”)与增强模型(“使用 Ours”)的性能。
结论
PromptEnhancer 是一个新颖的框架,旨在帮助文本转图像 (T2I) 模型更好地理解复杂的用户提示。T2I 模型通常难以遵循详细的指令,导致生成的图像与用户的意图不符。
PromptEnhancer会自动将用户的初始提示重写为任何 T2I 模型都能轻松理解的更详细的提示。关键创新在于一个使用思维链 (CoT) 流程的提示重写器。使用强化学习来训练这个重写器称之为 AlignEvaluator 的自定义奖励模型为指导。该评估器针对图文对齐的 24 个不同方面提供具体的、细粒度的反馈,使重写器能够学习如何创建高质量的提示。
PromptEnhancer框架是通用的,可以与任何预先训练的 T2I 模型兼容,而无需对其进行修改。实验表明,PromptEnhancer 在各种挑战中显著提高了生成的图像与用户提示之间的对齐程度。通过将提示增强任务与图像生成任务分离,该工作提供了一种有效且可扩展的解决方案,以提升 T2I 系统的控制力和准确性。
本文转载自AIGC Studio,作者:AIGC Studio
