
破局角色一致性!京东发布百万级高清数据集+Lay2Story,实现故事角色像素级精准操控
文章链接:https://arxiv.org/pdf/2508.08949
与SOTA方法的比较
亮点直击
- 一种进阶版的故事生成任务:布局可切换的故事生成(Layout-Togglable Storytelling),通过引入布局条件实现主题的精准控制。该方法在确保主题一致性的同时,支持对主题位置、外观、服装、表情、姿态等细节的精细调控。
- 构建了Lay2Story-1M数据集,是目前规模最大的故事生成数据集,包含超100万张720p及以上分辨率的图像,并附带详细主题标注。
- Lay2Story,一种基于DiTs架构的训练方法,专为布局可切换的故事生成任务设计。通过与现有故事生成方法的广泛对比,验证了Lay2Story在一致性、语义相关性和美学质量上均优于相关方法。
总结速览
解决的问题
- 主题一致性不足:现有方法(训练无关和训练相关)在生成连贯故事序列时,难以保持主题(如人物、物体)的细粒度一致性(如位置、外观、服装、表情、姿态)。
- 缺乏精细控制:现有技术无法精确控制生成内容的关键细节(如主题位置、属性),主要由于缺乏高质量标注数据。
- 数据稀缺:领域内缺少大规模、高分辨率且带有布局标注(如边界框、掩码)的数据集,制约了任务发展。
提出的方案
- 布局条件引导:引入布局条件(如主题位置、属性标注)作为细粒度指导,增强帧间交互,提升一致性和可控性。
- 新任务定义:提出Layout-Togglable Storytelling任务,支持通过布局条件精确控制主题生成。
- 数据集与基准:
- 构建Lay2Story-1M:包含超100万张720p+图像(源自11,300小时卡通视频),带布局标注。
- 发布Lay2Story-Bench:含3,000提示词的评测基准,用于方法对比。
- 模型框架:提出Lay2Story,基于DiTs架构,通过双分支(全局分支+主题分支)实现布局条件融合与主题一致性生成。
应用的技术
- 基础模型:基于扩散Transformer(DiTs)的PixArt-α作为主干模型。
- 双分支设计:
- 全局分支:以噪声潜变量和全局文本提示为输入,生成整体场景。
- 主题分支:结合噪声潜变量、主题掩码和参考图像潜变量,通过主题文本提示保持细节一致性。
- 布局条件注入:通过主题掩码和位置标注控制生成内容的精确空间布局与属性。
- 数据构建:从视频中提取高分辨率帧,人工标注主题位置、外观等属性,形成高质量训练与评测数据。
达到的效果
- 性能优势:在一致性、语义相关性和美学质量上超越SOTA方法(如1Prompt1Story、FLUX.1-dev IP-Adapter等)。
- 精细控制:实现主题位置、外观、姿态等属性的精准调控,生成结果更符合用户意图。
- 数据贡献:填补领域数据空白,Lay2Story-1M和Lay2Story-Bench为后续研究提供资源支持。
- 任务扩展:推动 storytelling 任务向布局可切换的高级控制方向发展,为影视、游戏等场景提供新工具。
Lay2Story-1M
Lay2Story-1M 是专为布局可切换故事生成(Layout-Togglable Storytelling)任务设计的数据集。它包含约20万组帧序列,每组包含4至6张图像,均以同一主题为核心且分辨率不低于720p。数据集总计约100万张图像。每张图像均标注了全局描述(格式为“身份提示+帧提示”),与其他故事生成方法类似。为实现对主题生成的精准控制,本文额外标注了布局条件,包括主题位置和描述性文本。
为简化任务并降低标注工作量, 本文聚焦卡通场景数据,仅标注每帧中最显著的主题角色(即使存在多个主题)。如下表1所示,Lay2Story-1M在现有故事生成数据集中规模最大、分辨率最高且标注最细。该数据集还可用于其他任务,如高质量卡通图像生成和布局到图像生成。接下来介绍数据收集与筛选流程,帧序列构建流程,基于Lay2Story-1M构建的测试集Lay2Story-Bench。
数据收集与筛选
视频收集:鉴于视频数据天然具备主题一致性,本文选择视频作为主要数据源。从互联网采集三类视频:
- PBS Kids与Khan Academy:从支持教育与非盈利项目的平台(如PBS Kids和Khan Academy)收集约1.2万部卡通视频;
- Internet Archive:从公共版权库Internet Archive获取约8000部无版权视频;
- YouTube视频:从YouTube下载约2万部高质量卡通视频,并通过以下措施规避版权风险:
- 仅使用公开频道数据,不涉及独家或私有来源;
- 仅共享视频ID与数据处理代码,不提供原始数据;
- 严格遵守YouTube数据隐私与合理使用政策,数据仅限研究用途。
视频筛选:
- 基础筛选:仅保留分辨率≥720p、时长1分钟至2小时的视频,且每部动画最多采集100个片段以平衡类别分布;
- 质量过滤:参照MiraData,按8帧/分钟采样帧序列后,使用Laion-Aes美学评分模型评估质量,并通过Stable Diffusion安全检测器排除NSFW内容;
- 最终数据:筛选后保留约2.5万部视频(总时长约1.13万小时),平均单视频时长27.2分钟。视频时长分布如下图2所示。
帧序列构建
如下图3所示,本文开发了一套鲁棒的数据处理流程来生成符合训练和测试要求的帧序列。该流程包含以下关键步骤:
(1) 帧提取对于每个输入视频,我们使用FFmpeg以0.25 FPS的速率采样帧。过高的采样率会导致帧冗余,而过低的采样率可能造成显著数据丢失。
(2) 主题检测采用GroundingDINO-B检测采样帧中的主题,仅保留检测分数最高的边界框作为主题位置。
(3) 特征提取与聚类使用CLIP-L提取每帧主主题区域的视觉特征,并通过K-means聚类对相似帧分组。为平衡聚类效率与效果:
- 每150帧为一组时,设置12个聚类中心;
- 不足150帧的组,设置6个聚类中心。
(4) 分组聚类后,按预设概率分布将帧组织为4、5、6帧的序列,以丰富训练和测试数据。
(5) 标注对每组帧序列:
使用GPT-4o mini生成结构化标注:
- 首先生成全局描述(格式为"身份提示+帧提示");
- 随后基于位置坐标裁剪主题图像,生成细粒度描述(涵盖外观、服装、表情、姿态等)。
该流程确保了数据集的高质量生成,同时保持训练与评估的一致性和多样性。通过此流程,处理了前面筛选的视频,最终得到约102万张图像的Lay2Story-1M数据集。其中4、5、6帧序列分别占总帧数的50%、30%和20%。
Lay2Story-Bench
从Lay2Story-1M中精选了3,000个样本构建Lay2Story-Bench,确保其中帧序列长度为4、5和6的比例与训练集中的比例一致。最终测试集包含375个长度为4的序列、180个长度为5的序列和100个长度为6的序列。为了提升最终测试结果的视觉质量,从美学评分排名前10%的视频中筛选序列。并通过限制每个视频类别的帧序列集不超过8个,手动维护测试数据集的多样性和平衡性。为确保公平性,我们记录了所选序列的视频ID,并保证训练集中不会出现来自相同视频的其他序列。
如下表2所示,与之前最常用的基准测试ConsiStory相比,Lay2Story-Bench提供了更大规模的提示集、更高的提示多样性、高分辨率的原始帧作为真实值(GT),以及详细的主体标注。
方法
Lay2Story
全局分支
本文使用在Lay2Story训练集上微调的PixArt-α模型作为全局分支。PixArt-α中的每个Transformer模块包含三个核心组件:AdaLN-single、自注意力和交叉注意力。
主体分支
实验
实现细节
基线方法与基准测试
将本方法与以下故事生成方法进行对比:BLIP-Diffusion、StoryGen、ConsiStory、StoryDiffusion、1Prompt1Story 和 FLUX.1-dev IP-Adapter。采用其论文或开源实现中指定的默认配置。
在评估阶段,使用Lay2Story-Bench对上述方法进行定性与定量比较。定性比较中,所有方法均采用4帧提示集生成推理结果。需特别说明,由于本方法支持布局条件(包括主体位置和标题)的可切换输入,分别展示包含与不包含这些输入的生成结果。定量比较中,所有方法均在Lay2Story-Bench完整提示集上评估,同样展示带/不带布局条件输入的生成结果。
评估方法
基于先前方法[38,80],采用DreamSim和CLIP-I评估主体一致性。为确保相似度测量仅聚焦主体身份,参照DreamSim方案,使用CarveKit去除图像背景并替换为随机噪声。同时采用FID指标评估生成图像质量,Recall@1衡量top-1图文匹配准确率,人工偏好度反映三位标注者的平均二元评分。
定性结果
如下图5所示,定性对比了Lay2Story与StoryDiffusion、ConsiStory、1Prompt1Story和FLUX.1-dev IP-Adapter。现有研究在保持图像序列主体一致性方面存在困难(如StoryDiffusion中的棕熊和ConsiStory中的加菲猫),并出现语义关联错误(如1Prompt1Story第7帧和FLUX.1-dev IP-Adapter第4帧)及美学质量失真(如StoryDiffusion第4帧和ConsiStory第4帧)。综合比较表明,Lay2Story在一致性、语义相关性和美学质量上均优于基线方法。
同时展示Lay2Story带/不带布局条件的生成结果(最后两行)。当提供布局条件(含主体标题和位置)时,Lay2Story能实现更精细的主体控制(例如末行中加菲猫在第2帧穿着绿裙,熊在第5帧佩戴眼镜)。
定量结果
如下表3所示,定量对比了Lay2Story(带/不带布局条件输入)与基线方法。在主体一致性指标(DreamSim和CLIP-I)方面,当提供布局条件时,Lay2Story优于所有其他方法——CLIP-I超过第二名约1.6个百分点,DreamSim领先约2个百分点。语义相关性指标(Recall@1)上,带布局条件的Lay2Story同样超越所有方法,较第二名提升约2个百分点。美学质量指标(FID)显示,布局条件下的Lay2Story显著优于其他方法,较第二名高出约6.4个百分点。
即使不提供布局条件输入,Lay2Story仍具竞争力:CLIP-I排名第二,Recall@1、DreamSim和FID均位列第三。推理时间对比表明,无布局条件时Lay2Story仅产生0.4秒差异,速度仅次于BLIP-Diffusion但性能全面领先。
消融实验
Lay2Story关键组件消融
如下表4所示,评估了主体分支、参考图像拼接和掩码3D自注意力层的影响。通过FID、Recall@1和人工偏好度三项指标验证了各核心组件的有效性。
布局条件输入消融
如下图6所示,通过调整去噪步数(带/不带布局条件)评估模型性能。测试提示为"夜晚森林中,小象和小熊围着篝火跳舞"。结果表明布局条件能显著提升效果,尤其在早期去噪阶段(如T=5时小象轮廓更清晰)。后期阶段(T=30)带布局条件的图像质量同样更优。
结论
本文提出故事生成任务的进阶形式——布局可切换故事生成(Layout-Togglable Storytelling),支持通过布局条件实现精准主体控制,同时保留用户选择权。构建了Lay2Story-1M数据集,包含超100万张720p及以上分辨率的高质量图像及精细主体标注;基于此推出含3000条提示的评估基准Lay2Story-Bench。提出的Lay2Story方法基于DiTs架构,实验表明其在一致性、语义相关性和美学质量上均超越现有方法。
本文转自AI生成未来 ,作者:AI生成未来
