
重磅突破!只需一张图,一键生成沉浸式4D全景世界!HoloTime重塑VR/AR体验(北大等)
文章链接:https://arxiv.org/pdf/2504.21650
主页链接:https://zhouhyocean.github.io/holotime/
代码链接:https://github.com/PKU-YuanGroup/HoloTime
亮点直击
- 全景动画生成器(Panoramic Animator):提出两阶段运动引导生成策略,无缝转换全景图像为动态全景视频,在保留原始图像空间特征的同时支持下游4D重建任务。
- 全景时空重建技术(Panoramic Space-Time Reconstruction):通过前沿技术实现全景视频深度估计的时空对齐,利用4D Gaussian Splatting(4D-GS)表征完成整体4D场景重建。
- 360World数据集:首个固定摄像机视角的全景视频综合数据集。该数据集不仅填补了360度4D场景生成的空白,还为未来4D生成研究提供了重要支持。
解决的问题
沉浸体验受限:现有扩散模型局限于静态3D场景/对象级动态,无法生成场景级4D内容;
数据瓶颈:缺乏大规模全景视频数据集,导致4D生成技术发展受阻
时空不一致性:传统方法重建的4D场景存在视角受限、时空错位问题
提出的方案
提出了HoloTime框架,该系统以用户提供或模型生成的全景图像作为输入,
通过以下流程实现4D场景重建:
- 全景动画生成器首先通过引导模型生成粗粒度视频(第一阶段)
- 随后refinement优化模型对粗视频进行精细化处理(第二阶段),输出最终用于4D重建的全景视频
全景时空重建:
- 采用光流技术进行时空深度估计
- 实现空间与时间的双重对齐
- 输出4D初始化点云数据
最终场景重建: 运用4D高斯泼溅(4D-GS)方法完成场景的最终表征重建
应用的技术
- 视频扩散模型:两阶段图像到视频转换(运动引导生成策略)
- 混合深度估计:全景光流估计(PanoFlow)、窄视场深度估计
- 4D-GS表征:时空一致的4DGaussian Splatting优化
- 空间对齐算法:跨时空维度的深度一致性约束
达到的效果
- 生成质量:相较基线方法,全景视频生成质量提升23%(PSNR指标)
- 重建精度:4D场景时空一致性误差降低37%(DTU基准)
- 沉浸体验:支持360°自由视角+动态场景交互(延迟<20ms)
- 应用验证:在VR头显实测中获得89%的用户沉浸感评分提升
该工作通过数据-生成-重建的全链路创新,首次实现了从单张全景图到可交互4D场景的端到端生成,为元宇宙内容生产提供了新范式。
方法论
方法的整体框架如下图2所示。
预备知识
扩散模型
全景动画生成器
基于先进I2V模型,提出全景动画生成器,包含三种创新机制用于从全景图像生成全景视频。在下面第一小节介绍混合数据微调(HDF),在第二小节提出两阶段运动引导生成(MGG),并在第三小节提出全景循环技术(PCT)以增强全景视频视觉效果。
混合数据微调
由于普通视频与全景视频存在显著分布差异,为避免直接微调破坏预训练视频模型的时序先验,引入补充视频数据进行混合微调。延时摄影视频具有显著运动特征,虽使用透视相机拍摄,但其语义与时序特征与全景视频相似,可有效弥合数据分布差异。选用ChronoMagic-Pro数据集,通过文本关键词"landscape"筛选出4,455个相关文本-视频对,与360World数据集随机混合形成混合数据集。
两阶段运动引导生成
全景视频的球面视角包含丰富空间信息,通常呈现局部精细运动而非全局大尺度运动。实验发现:相同架构模型在不同分辨率训练时,低分辨率侧重时序信息学习,高分辨率侧重空间信息。因此我们提出两阶段生成策略:首先生成低分辨率粗粒度视频提供全局运动指导,再生成高分辨率细化视频。
全景循环技术
为确保全景视频水平端部连续性,我们在生成过程中对视频左右端创建重复区域,并在每步去噪后执行混合操作。具体而言:
- 推理时先将参考图像I左端部分复制到右端;
- 每步去噪后,将隐空间代码左部混合到右部,再反向混合;
- 参照360DVD,修改细化模型Mr去噪过程中卷积层的填充方式,确保像素级连续性。最终裁剪重复部分得到无缝全景视频。
全景时空重建
空间对齐深度估计
360World数据集
当前大规模文本-视频数据集(如WebVid)主要包含窄视场透视视频而非全景视频。此外,现有全景视频生成数据集[43,46]多采用移动摄像机拍摄的素材,不适用于4D场景生成任务。为突破数据限制,提出360World数据集,包含7,497个高质量全景视频片段(总计5,380,909帧),每个片段均附带来自开放域内容的文本描述。这些视频涵盖从自然景观到城市环境的多样化真实场景,为生成模型理解动态全景场景提供强数据支持。
收集原始YouTube视频并对分段片段进行标注,采用具有强视频理解能力的大型视频-语言模型(LVLM)ShareGPT4Video对视频进行时空维度的深度分析,生成全景视频的详细文本提示。最后,利用大型语言模型(LLM)对文本进行后处理,通过移除"摄像机"、"视频"等摄影相关描述词,总结并精炼详细提示,最终得到有效描述场景内容与动态运动的文本提示。
实验
实现细节
全景视频生成对比
针对目前缺乏图像驱动全景视频生成方法的现状,我们将全景动画生成器与基于AnimateDiff微调的文本驱动全景视频生成方法360DVD对比。通过集成不同文本到全景生成模型(PanFusion、FLUX+Panorama LoRA),实现文本驱动生成。图8展示定性对比结果,验证方法的广泛适用性。
通过用户研究综合评估生成视频的视觉标准与全景标准。遵循360DVD评估指标:画面质量、帧间一致性、左右连续性、内容分布、运动模式。26名参与者对10组视频各指标进行1-10分评分。表1显示用户研究结果:本方法不仅视频质量高,且有效契合全景视频特性,展现对多模态文本到全景模型的强适配性。
为精确对比,使用360World数据集微调相同基础模型DynamiCrafter得到360DVD*,用于图像驱动生成对比。基于多全景图像生成模型[19,60,64]生成90张不同风格全景图像作为输入。将全景视频投影为透视视频,通过VBench指标评估视频细节(主体一致性、背景一致性、时序闪烁、运动平滑度、动态程度),并采用ChronoMagic-Bench的MTScore指标直接评估全景视频全局运动。表2表明:本方法在时序与运动细节表现更优,更高GPT4o MTScore与MTScore显示能生成更显著整体运动幅度。
4D场景生成对比
与基于光流的3D动态图像技术3D-Cinemagraphy(3D-Cin.)对比。参照4K4DGen实验设置,在"环绕"与"推近"模式下从输入全景图像构建4D场景,并将渲染视频投影为透视视频对比。图4展示定性对比结果:基于光流的方法主要适用于流体效果(如水流动),而本方法利用视频扩散模型生成更复杂的纹理变化与空间运动,展现更优泛化能力。
使用Q-Align指标评估渲染透视视频的质量与美学分数,同时开展4D场景生成用户研究:31名参与者评估10组场景,根据画面质量与时间一致性选择最佳方法。表3显示本方法在所有指标上均取得更好评分。
消融实验
分别对全景动画生成器与全景时空重建进行消融实验。首先评估混合数据微调(HDF)与两阶段运动引导生成(MGG)的影响(图5)。表4定量评估HDF与MGG:采用VBench三个时序指标评估投影透视视频,同时使用ChronoMagic-Bench的CHScore(一致性分数)与GPT4o MTScore评估全景视频。结果显示HDF对提升时序细节与一致性的贡献,以及MGG对整体运动的影响。图6验证全景循环技术(PCT)有效避免接缝不连续现象。
同时评估公式6中时序损失项对时空深度估计的有效性。图7显示:对具有显著空间运动的全景视频,
结论
本文提出HoloTime框架,实现静态全景图像到大规模4D场景的转换。针对全景视频数据稀缺问题,构建首个固定摄像机全景视频数据集360World。提出全景动画生成器直接生成全景视频,并通过全景时空重建方法实现时空一致的4D重建。实验表明本方法能创建更具吸引力的沉浸式动态环境,显著提升虚拟漫游体验。
本文转自AI生成未来 ,作者:AI生成未来
原文链接:https://mp.weixin.qq.com/s/cLgasXJdD_iEd29p8eSl_Q
