1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元

发布于 2025-6-4 08:04
浏览
0收藏

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

论文链接:https://arxiv.org/pdf/2505.21060
项目链接:https://nickisdope.github.io/Styl3R/

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

亮点直击

  • 提出了一种前馈网络用于3D风格化,该网络处理稀疏无位姿的内容图像和任意风格图像,无需测试时优化,并能很好地泛化到域外输入——使其适用于交互式应用。
  • 设计了一种双分支网络架构,将外观建模与结构建模解耦,有效增强了新视角合成与3D风格化的联合学习。
  • 本文方法实现了最先进的零样本3D风格化性能,超越了现有零样本方法,并接近针对特定风格优化技术的效果,这通过定量指标和定性结果得到了验证。

总结速览

解决的问题

  • 3D场景快速风格化的挑战:现有方法依赖计算密集的测试时优化,难以实现实时风格化。
  • 多视角一致性问题:风格迁移易破坏3D场景的结构一致性,导致视角间 artifacts。
  • 输入限制:现有方法需密集多视角图像和已知相机位姿,难以处理稀疏、无位姿的输入。
  • 风格与重建的解耦:风格迁移与3D重建目标存在冲突,需平衡艺术风格与场景结构保真度。

提出的方案

  • Styl3R模型:基于前馈网络的端到端框架,直接联合重建与风格化3D场景,无需测试时优化。
  • 双分支架构
  • 结构分支:从无位姿稀疏图像预测3D高斯的结构参数,保持几何一致性。
  • 外观分支:通过Transformer解码器融合多视角内容特征与风格特征,生成色彩。
  • 身份损失(Identity Loss):在风格化微调时,随机输入原内容图像,保留原始重建能力。

应用的技术

  • 3D高斯表示:利用密集几何先验高效建模场景结构。
  • Transformer特征融合:在外观分支中跨视角混合内容与风格特征。
  • 无监督预训练:通过新视角合成任务初始化模型,兼顾重建与风格化能力。
  • 轻量化设计:支持2-8张无位姿输入,处理时间仅0.15秒。

达到的效果

  • 高效性:0.15秒内完成3D风格化,比优化方法快数个数量级。
  • 多视角一致性:双分支设计避免结构失真,显著优于现有方法。
  • 输入灵活性:支持稀疏(2-8张)、无位姿图像和任意风格图像输入。
  • 保真度:在域内外数据上均实现高质量风格化,平衡艺术风格与场景真实性。
  • 兼容性:保留原始重建能力,无需场景或风格特定的微调。

方法

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

本文提出一种双分支架构,将网络分为结构构建分支和外观着色分支。在外观分支中,采用风格化解码器,首先对所有视角的内容 token 执行全局自注意力以确保多视角一致性,随后注入风格 token 并与内容 token 进行交叉注意力,同时不干扰结构分支。


下图2展示了整体流程。本节首先介绍利用 DUSt3R 密集几何先验的结构分支,随后说明控制输出高斯分布颜色的外观分支,最后设计一种训练策略以促进风格化学习并有效保留几何先验。

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

结构分支

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

外观分支

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

训练策略

3D风格化与重建并非天然对齐,因为优化风格损失可能损害场景的底层3D结构。本文采用两阶段训练策略。第一阶段训练模型准确估计场景结构并执行标准真实感着色。此阶段后,进入风格化微调阶段,期间冻结结构分支以确保场景几何的忠实保留。

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

训练损失。两训练阶段使用的损失总结如下:

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

渐进式多视图训练:为了稳定多视图训练,首先在 2 视图设置下对模型进行新视角合成(NVS)任务的预训练,随后利用该预训练模型初始化 4 视图 NVS 训练及后续的风格化微调。尽管训练时使用 4 个输入视图,但本文的模型在推理时可灵活处理 2 至 8 个视图(如下图 8 所示)。

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

实验

数据集:采用RealEstate10K(RE10K)和DL3DV的组合作为场景数据集,涵盖具有多样化相机运动模式的室内外视频。对于风格监督,使用WikiArt并为训练集和评估集中的每个场景分配唯一风格图像,确保测试场景和风格均未在训练中出现。为零样本泛化评估,在Tanks and Temples数据集上进行测试,该数据集被先前3D风格迁移方法广泛采用。


基线方法:由于现有方法均无法从稀疏无位姿内容图像和风格参考图像即时风格化3D重建(如下表1所述),精选一组代表性基线进行比较。对于基于2D的方法,采用AdaIN、AdaAttN和StyTr2的两阶段流程:首先生成真实新视角图像,再应用各2D风格化模型。对于3D方法,对比ARF、StyleRF和StyleGaussian,这些方法需密集输入视角和测试时优化。为确保功能正常,以密集输入训练这些方法,承认这使其具有优势,使对比对本方法(仅需稀疏输入)不利。ARF需要逐场景和逐风格优化;StyleRF和StyleGaussian虽支持零样本风格迁移,但仍依赖逐场景优化。

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

评估指标:由于3D风格化的新颖性和探索不足,缺乏评估风格化质量的指标。本文评估多视角一致性:使用RAFT估计序列图像间光流,通过softmax splatting扭曲前一帧,在有效像素上计算LPIPS和RMSE作为一致性度量。短程和长程一致性分别计算相邻视角和相隔七帧的视角。对新视角合成质量,报告标准图像相似性指标:PSNR、SSIM和LPIPS。


实现细节:使用PyTorch框架。内容与风格编码器采用patch size为16的标准ViT-Large架构,结构与风格化解码器基于ViT-Base模型。编码器、解码器和高斯中心预测头以MASt3R预训练权重初始化,其余层随机初始化。模型在256×256像素分辨率图像上训练,高斯采用0阶球谐函数。训练在8块NVIDIA A100 GPU上耗时约1.5天。

实验结果

三维风格化结果。 如下图3和表2所示,本文的方法显著优于所有基线方法。在视觉效果上,本文的风格化结果在内容保留与风格迁移忠实度之间实现了更平衡的权衡。基于测试时优化的三维基线方法中,StyleRF和StyleGaussian往往无法准确复现参考风格色调,导致输出结果过度泛白或变暗。ARF虽然能更好地捕捉风格色彩,但容易过拟合并施加过度的风格化,从而掩盖场景细节。例如,在图3第三行中,客厅的家具因强烈的素描线 artifacts 几乎无法辨认。作为二维基线,StyTr2在单张真实新视角上生成视觉愉悦的结果,但缺乏多视角一致性(如表2和下图5所示)。相比之下,本文的方法始终生成更优的风格化结果,同时保持最佳的短程和长程一致性指标,这得益于对多视角内容与风格 token 联合操作的注意力机制。尽管StyleRF在短程评估中略低的RMSE,但这主要归因于其过度平滑的输出。

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

跨数据泛化性。为评估方法的泛化性能,直接将其应用于Tanks and Temples数据集(先前工作中广泛使用的基准)。如下图4所示,本文的模型在分布外场景(如Garden、Ignatius和Horse等与RE10K训练数据差异显著的物体中心场景)上表现出优越性能,超越了现有最优方法。值得注意的是,尽管StyleRF和StyleGaussian需逐场景训练,它们仍无法泛化到任意风格输入。而ARF虽在某些场景中表现更好,但需要密集标定视图及逐场景、逐风格的优化,限制了其在时间敏感应用中的实用性。

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

新视角合成。本文的最终模型支持风格化与标准三维重建两种模式,具体取决于外观分支的输入是风格图还是内容图。本文报告两组指标:一组针对风格化输出(Ours-stylization),另一组针对未经过风格化微调的标准重建(Ours)。如下表3所示,Ours的性能与NoPoSplat相当,尽管未使用预训练权重初始化风格化解码器。而Ours-stylization虽性能略有下降,但可同时支持照片级真实感和风格化重建。本文的结果来自RE10K双视图模型,与NoPoSplat一致。

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

风格化时间。本文将风格化时间定义为从接收输入内容图和风格图到生成最终风格化输出的总时长。该指标更实际地反映用户获取结果的速度。对于三维方法,该时间包括重建时间和风格化相关训练或优化时间。如表2所示,本文的方法风格化时间显著快于所有现有三维方法,同时接近最先进二维方法的速度。

消融实验

身份损失对保留NVS能力的作用。探究了风格化微调中身份损失的必要性。下图6表明,若禁用该损失,模型在进行新视角合成时将无法恢复场景原始外观。

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

内容损失层数。同时使用​​relu3_1​​​和​​relu4_1​​​计算内容损失能更好地保留结构细节而不牺牲艺术表达。下图7显示,仅依赖​​relu3_1​​会导致风格压倒场景底层结构。




1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

输入视图数量的灵活性。以4张内容图像训练的模型展现出强泛化性,可有效处理2至8张输入视图。下图8中,无论是2视图还是4视图模型,在仅输入2张内容图像时均能生成满意风格化结果。但当输入增至8张内容图像时,2视图模型难以跨视图对齐高斯体,导致重复 artifacts(如多根立柱和沙发)。而4视图模型表现优异,尽管从未接受过8视图输入训练。

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

应用

风格插值。下图9中展示了模型的一项应用——风格插值。在将风格 token 输入风格化解码器前,对两幅参考风格图的风格 token 进行插值,从而生成融合两种风格的平滑过渡结果。此方法可轻松扩展至多于两种风格的情形,只需计算对应风格 token 的加权和。

1秒炸裂3D艺术圈!浙大&西湖突破3D风格化瓶颈:Styl3R引领3D场景风格化新纪元-AI.x社区

结论

本文提出一种前馈网络,可从稀疏、未标定输入视图和单张参考风格图中实现即时三维风格化,且无需测试时优化即可泛化至任意场景和风格。该网络由结构分支和外观分支组成,共同实现一致的新视角合成与风格化。大量实验表明,本文的方法在零样本风格化质量上优于现有基线,同时推理速度显著更快,使其更适用于现实世界和交互式应用。需指出,当前方法仅支持静态场景;将其扩展至动态场景是未来工作的重要方向。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/AlxINCaqJSITznfolUxTEA​

收藏
回复
举报
回复
相关推荐