
视频生成模型中的零样本学习和推理能力;视频生成和编辑统一框架;掩码扩散模型,图片理解生成一体;物理驱
Video models are zero-shot learners and reasoners
2025-09-24|Google DeepMind|🔺50
http://arxiv.org/abs/2509.20328v1
https://huggingface.co/papers/2509.20328
https://video-zero-shot.github.io/
研究背景与意义
- 背景与现状近年来,自然语言处理领域经历了从任务专用模型向大型语言模型(LLMs)转变的革命,LLMs通过大规模生成模型和海量网络数据,实现了统一、通用的语言理解能力。机器视觉领域当前正处于类似的转型期,虽然存在诸如“Segment Anything”等优秀的任务专用视觉模型,但尚无模型能通过简单提示实现多任务零样本学习。
- 挑战与目标机器视觉面临的挑战是如何实现类似LLMs的通用视觉理解能力,尤其是通过视频生成模型实现跨任务的零样本学习和推理。本文旨在验证视频模型是否具备发展成为通用视觉基础模型的潜力,重点考察Veo 3模型在多种未显式训练任务上的表现。
- 意义证明视频模型具备广泛的零样本学习和视觉推理能力,将推动机器视觉从任务专用模型向统一、通用的视觉基础模型迈进,带来视觉理解和生成的范式转变。
研究方法与创新
- 技术描述研究采用了Google DeepMind开发的Veo系列视频生成模型,特别是最新的Veo 3。该模型基于大规模生成式训练,输入为初始图像和文本指令,输出720p分辨率、24帧/秒、8秒长的视频。通过调用Google Cloud Vertex AI API,模型无需针对特定任务微调,仅通过提示即可生成对应视频。
- 创新点
- 零样本多任务能力:Veo 3无需任务专门训练,即可完成分割、边缘检测、物理属性理解、物体操作、视觉推理等62项任务,涵盖视觉感知、建模、操控和推理四大层次。
- 链式帧推理(Chain-of-Frames, CoF):视频生成的逐帧处理方式类似于LLMs的链式思维,支持跨时空的视觉推理,如迷宫导航和对称性解决。
- 系统性对比分析:通过与前代Veo 2和其他专用模型(如Nano Banana、Gemini 2.5 Pro)对比,展示了Veo 3在性能和任务广度上的显著提升。
- 理论基础继承LLMs基于大规模生成模型和无监督预训练的成功经验,结合视频生成的时空连续性特点,提出视频模型作为视觉基础模型的可行路径,强调提示工程在视觉任务中的重要性。
- 优势解析
1.统一模型架构减少了多模型维护成本。
2.零样本能力极大提升了模型的泛化性和任务适应性。
3.通过视频生成实现了对动态视觉信息的自然建模和推理,突破了静态图像模型的限制。
实验设计与结果分析
- 实验设计选取了18,384个视频样本,涵盖62个定性任务和7个定量任务,涉及视觉感知(边缘检测、分割、关键点定位)、物理建模(浮力、反射、物体依赖关系)、图像编辑(背景移除、风格迁移)、视觉推理(迷宫导航、对称性、视觉类比)等多个层面。通过多次提示生成,统计成功率和性能指标。
- 结果分析
- 感知任务:Veo 3在边缘检测(OIS 0.77)、实例分割(mIoU 0.74)等任务中表现优异,零样本性能接近专用模型。
- 操控任务:在图像编辑和物体提取任务中,Veo 3展现了细节保留和准确操控能力,且优于Veo 2。
- 推理任务:迷宫解决成功率达78%,显著优于Veo 2,视觉对称性和类比任务表现出初步的空间和抽象推理能力。
- 多场景表现:模型在不同提示和视觉输入下表现稳定,提示设计对性能影响显著,表明提示工程是提升性能的关键。
- 统计显著性:从Veo 2到Veo 3的性能提升具有统计学意义,显示视频模型能力快速演进。
- 对比基准Veo 3在多数任务上达到或超过了Nano Banana等先进图像编辑模型的表现,且在动态视觉推理任务中表现出独特优势。
结论与展望
- 总结贡献本文首次系统验证了大型视频生成模型Veo 3具备广泛的零样本视觉任务解决能力,涵盖感知、建模、操控和推理四个层次,确立了视频模型作为通用视觉基础模型的潜力。研究揭示了链式帧推理机制,为视觉智能的未来发展提供新范式。
- 局限分析
- 当前视频生成成本较高,限制了大规模应用。
- 虽然零样本性能显著,但在部分复杂任务上仍低于专用模型。
- 模型对提示设计敏感,提示工程尚需深入研究。
- 部分视觉推理任务(如旋转类比)存在系统性偏差,表明模型尚未完全掌握抽象变换。
- 方法展望未来可通过推理时间扩展、提示优化、后训练自动验证等技术提升性能。随着推理成本下降,视频模型有望取代传统视觉模型,成为视觉领域的基础设施。结合多模态融合和强化学习,视频模型将实现更复杂的视觉理解与交互能力。
- 前瞻机器视觉正迎来类似自然语言处理的“GPT-3时刻”,视频模型的零样本学习和推理能力将引领视觉智能进入统一、通用的新纪元,推动智能系统在感知、理解和行动上的跨越式发展。
EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning
2025-09-24|Adobe Research, CUHK, JHU|🔺11
http://arxiv.org/abs/2509.20360v1
https://huggingface.co/papers/2509.20360
http://editverse.s3-website-us-east-1.amazonaws.com/
研究背景与意义
- 问题定义与现状:当前图像生成与编辑领域已逐步实现统一框架,但视频生成与编辑仍处于碎片化阶段,主要受限于架构设计和视频编辑数据稀缺两大瓶颈。
- 挑战阐述:
- 架构限制:现有视频生成模型多为任务专用,难以支持多样化视频编辑任务,缺乏统一且灵活的输入输出处理能力。
- 数据匮乏:高质量、多样化的视频编辑训练数据远少于图像领域,制约模型泛化与能力提升。
- 研究目标:提出EditVerse,一个统一的图像与视频生成及编辑框架,通过统一的多模态令牌序列表示,利用全自注意力机制实现强大的上下文学习与跨模态知识迁移,克服视频编辑数据匮乏,支持任意分辨率和时长的输入输出,推动视频编辑向通用化发展。
研究方法与创新
- 技术架构:
采用Transformer架构,所有文本、图像和视频输入统一编码为交错的令牌序列,输入模型进行全自注意力处理,强化上下文理解和多模态融合。
设计四维旋转位置编码(包含空间高度、宽度,序列位置和时间维度),精确区分不同模态及其时空位置,支持变长输入输出。
训练目标为预测视觉速度场,指导图像/视频的去噪生成,结合Flow Matching扩散模型,实现高质量内容生成。
- 数据创新:
构建规模达23.2万的视频编辑样本数据管线,结合多种任务特定模型(如对象移除、风格迁移、摄像机变换等)自动生成并筛选高质量视频编辑对。
结合2百万图像编辑样本及多模态大规模生成数据,实现联合训练,促进图像领域知识向视频领域迁移。
- 优势对比:
相较于现有基于跨注意力或多分支架构的专用视频编辑模型,EditVerse统一且灵活,支持多模态、多任务,且无需任务特定输入配置。
通过交错序列和四维位置编码的创新设计,模型能更好地捕获模态间及时空依赖关系,提升编辑质量和文本对齐度。
实验设计与结果分析
- 实验设计:
训练基于2B参数的Transformer模型,采用AdamW优化,训练数据涵盖图像生成、图像编辑、视频生成及视频编辑多个数据源。
设计EditVerseBench,包含100个视频及200个多样编辑指令,覆盖20类视频编辑任务,支持横竖屏多分辨率测试。
评估指标涵盖视频质量(帧级Pick Score)、文本对齐度(CLIP、ViCLIP)、时序一致性(DINO)及视觉语言模型(VLM)评估的编辑质量。
- 结果分析:
EditVerse在EditVerseBench上超越所有公开开源方法及部分商业模型,编辑质量和文本对齐度显著提升,用户研究亦验证其优越性。
在TGVE+数据集上,EditVerse同样取得最佳文本与视频编辑方向一致性指标,证明其泛化与多任务能力。
消融实验显示图像生成与编辑数据对视频编辑性能至关重要,缺失任一数据源均导致性能下降,验证了跨模态知识迁移的有效性。
模型设计消融表明,交错输入设计和序列位置编码对编辑质量和文本对齐有显著正面影响,体现架构创新的核心价值。
展示了模型在训练数据未覆盖任务上的 emergent ability(新兴能力),如复杂多任务编辑和超越训练数据质量的表现,显示模型具备强大泛化潜力。
结论与展望
- 贡献总结:
提出EditVerse,首个统一的图像与视频编辑生成框架,突破了视频编辑架构与数据瓶颈,实现灵活多模态输入输出及跨模态知识迁移。
构建大规模高质量视频编辑数据管线与多任务综合训练策略,显著提升视频编辑效果。
设计EditVerseBench,填补了多任务、多分辨率指令式视频编辑评测空白,促进领域标准化评估。
通过丰富实验验证,展示了模型的先进性能及Emergent Ability,推动多模态基础模型研究向前迈进。
- 局限与未来方向:
目前模型对极端长视频和超高分辨率支持仍有限,未来可探索更高效的长序列建模策略。
视频编辑数据仍相对不足,后续可进一步扩展多样化任务和真实世界场景数据。
模型推理速度和资源消耗较高,需优化以适应实时或边缘设备应用。
期待将该统一框架推广至更多模态(如音频、3D)及复杂交互场景,实现更广泛的多模态理解与生成。
Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation
2025-09-23|Adobe, UCLA|🔺6
http://arxiv.org/abs/2509.19244v2
https://huggingface.co/papers/2509.19244
研究背景与意义
- 多模态理解与生成的统一需求:图像理解和生成历来依赖不同的专门模型,统一多模态模型如GPT-4o提出了用单一模型完成多任务的范式,兼顾理解与生成能力,尤其在图像编辑等任务中表现出协同优势。
- Masked Diffusion Models(MDMs)的兴起:作为自回归模型的有力替代,MDMs通过掩码和解掩码的扩散过程,在语言和图像生成中展现出更优的速度-质量权衡和可控性,且支持并行解码,极大提升效率。
- 现有统一MDMs的局限:如MMaDa和Muddit在任务支持范围和性能上仍落后于自回归及连续扩散模型,面临训练成本高、开源资源匮乏、缺乏利用理解能力提升生成质量机制等挑战。
- 研究目标:提出Lavida-O,首个支持高分辨率图像合成、对象定位、图像编辑和交错生成的多模态MDM,通过创新架构和训练策略解决上述瓶颈,实现统一模型的高效训练与优异性能。
研究方法与创新
- Elastic Mixture-of-Transformers(Elastic-MoT)架构:区别于传统均等分支或双重参数组架构,生成分支设计为较小隐藏层,减少参数量和训练开销;仅在前半层允许跨模态联合注意力,后半层仅模态内自注意力,激活参数灵活,提升训练与推理效率。
- 模态感知掩码机制:引入特殊时间戳将全掩码图像标记为特定文本token,推理时动态展开为图像掩码token,支持交错生成和复杂编辑任务,解决了MDM并行解码中模态路由的难题。
- 任务特定设计:
通用文本条件化:将图像质量、分辨率等微条件以纯文本形式附加,利用模型强语言理解能力,简化条件设计且增强生成控制。
分层随机采样:以空间均匀方式逐步解掩码,避免高置信度token聚集导致的相关性破坏,提升图像生成质量。
规划与自反思机制:模型先生成布局或编辑区域规划,再执行生成,生成后自评估是否符合需求,不满足则修正,显著提升生成准确性和编辑效果。
坐标量化定位:将边界框坐标归一化并量化为离散token,实现多目标并行解码,提升定位效率和准确性。
- 训练策略:分阶段训练,先强化理解分支,再增设生成分支并逐步提升分辨率,最后联合训练多任务,结合上述技术实现高效大规模模型训练。
实验设计与结果分析
- 广泛任务覆盖:涵盖图像理解(对象定位、问答等)、文本到图像生成、高分辨率图像编辑及交错生成等多模态任务。
- 性能表现:
图像理解:在多个公开基准(如RefCOCO、ChartQA等)超越现有统一MDM和自回归模型,显著提升理解能力。
文本到图像生成:在GenEval、DPG等评测中,Lavida-O优于同类MDM及部分连续扩散模型,FID指标显著降低,规划和反思机制进一步提升生成质量。
对象定位:超越Qwen2.5-VL、Grounding-DINO等专门模型,精准度显著提升。
图像编辑:在Image-Edit基准上,Lavida-O优于包括GPT-4o在内的多款先进模型,尤其在替换和移除物体等需要局部理解的任务表现突出。
- 效率优势:
推理速度:相比自回归模型,Lavida-O实现最高6.8倍推理加速。
训练效率:Elastic-MoT架构较传统MoT设计提升训练速度3.17倍,参数量减少且激活灵活,降低计算资源需求。
- 定性示例:多样化文本生成和复杂编辑示例展示了模型在细节刻画、语义理解与任务执行上的卓越能力。
结论与展望
- 贡献总结:Lavida-O开创了多模态MDM在高分辨率生成、精细编辑和精准定位上的新标杆,实现了统一模型在多任务上的顶级性能和高效训练推理。
- 创新点:Elastic-MoT架构、模态感知掩码、规划与反思机制及任务特定设计共同推动了统一多模态系统的发展。
- 未来方向:
探索更深层次的理解与生成协同机制,进一步提升模型的推理和创造力。
优化模型轻量化与实时响应,拓展应用场景。
丰富训练数据和任务种类,强化模型泛化能力与多模态融合深度。
- 研究意义:为多模态人工智能系统提供了高效且性能卓越的技术路径,推动统一模型向通用智能迈进。
PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation
2025-09-24|U Penn, MIT, HKUST|NeurIPS 2025|🔺4
http://arxiv.org/abs/2509.20358v1
https://huggingface.co/papers/2509.20358
https://cwchenwang.github.io/physctrl
研究背景与意义
- 现有问题与挑战当前视频生成模型虽然能从文本或图像生成高质量的视觉内容,但普遍缺乏物理合理性和三维动态控制能力。这导致生成的视频往往无法准确反映现实世界中的物理行为,限制了其在游戏、动画、机器人等领域的应用。
- 研究目标本文旨在提出一种新颖的物理驱动图像到视频生成框架——PhysCtrl。该框架能够通过显式控制物理参数(如杨氏模量、泊松比)和外部力,实现物理合理且可控的三维动态视频生成,突破传统模型在物理真实性和控制精度上的瓶颈。
- 意义与创新点
- 引入物理先验至视频生成,提升物理合理性。
- 采用三维点轨迹作为物理动态的紧凑且通用表示,支持多种材料类型。
- 利用大规模合成数据和扩散模型,实现高效且泛化能力强的物理动态生成。
研究方法与创新
- 物理动态表示与生成研究采用2048个三维点的点云轨迹来表示物体的物理动态,兼具表达能力和灵活性,适用于弹性体、塑形体、沙粒和刚体等多种材料。通过这种表示,生成的动态既紧凑又适合与视频生成模型无缝结合。
- 扩散模型与时空注意力机制设计了一种基于扩散模型的生成网络,结合创新的时空注意力模块:
- 空间注意力负责捕捉同一时间点内点云粒子间的相互作用,模拟物理粒子交互。
- 时间注意力则聚合同一粒子在不同时间步的动态信息,保证轨迹的时间一致性。该设计有效降低了时空关联建模的计算复杂度,同时精准反映物理过程。
- 物理约束与损失函数设计引入基于材料点法(MPM)物理方程的约束,通过物理损失函数强制生成轨迹满足连续性和力学平衡条件,显著提升生成动态的物理合理性。边界损失确保物体不穿透地面等环境限制。
- 大规模合成数据集构建构建了涵盖55万个动画样本的合成数据集,涵盖四种典型材料,利用物理模拟器生成多样且复杂的物理动态,为模型提供丰富且高质量的训练基础。
- 图像到视频的物理控制流程首先通过多视角重建获得输入图像中物体的三维点云,再利用训练好的扩散模型生成对应的物理动态轨迹,最后将轨迹投影回图像空间,作为条件信号驱动预训练的视频生成模型,实现物理驱动的图像到视频转换。
实验设计与结果分析
- 对比基准与评估指标与当前最先进的可控视频生成方法(如Wan2.1、CogVideoX、DragAnything、ObjCtrl-2.5D)进行比较,采用GPT-4自动评分和用户研究,评估视频的语义一致性、物理合理性和视觉质量。
- 定量与定性结果
- 本方法在所有评估维度均显著优于对比方法,特别是在物理合理性和动态一致性上表现突出。
- 生成视频能够根据不同物理参数和外力调整物体运动形态,展示了良好的物理控制能力。
- 轨迹生成任务中,采用物理约束的模型在体积交并比、Chamfer距离和相关性指标上均优于无物理约束版本及其他生成动态方法。
- 消融实验通过移除空间注意力、时间注意力和物理损失分别进行消融,验证了各模块对性能的贡献。结果显示,物理损失对生成轨迹的准确性和物理合理性提升最为显著。
- 多场景适用性尽管主要聚焦单物体四种材料,实验展示了模型对不同物理条件的适应性和泛化能力,支持用户调节力的方向和大小,实现多样化动态生成。
结论与展望
- 贡献总结本文提出了PhysCtrl,一个结合扩散模型和物理约束的物理驱动视频生成框架,实现了基于三维点轨迹的物理动态建模与控制。该方法有效解决了传统视频生成模型物理合理性不足的问题,支持多材料、多物理参数的显式控制,显著提升了视频的物理真实性和视觉质量。
- 局限性分析
- 当前模型主要针对单物体场景,未充分涵盖复杂多物体交互和边界条件。
- 材料类型有限,尚未扩展至流体等更复杂物理现象。
- 对计算资源有较高要求,限制了实时应用的可能性。
- 未来工作方向
- 扩展模型以支持多物体及复杂环境下的物理交互。
- 探索更多物理现象和材料类型,提升模型的通用性。
- 优化计算效率,推动物理驱动视频生成技术的实时应用。
- 结合更多感知信息,实现更精准的物理参数估计与控制。
综上,PhysCtrl为物理合理且可控的视频生成开辟了新路径,具有广阔的应用前景和研究价值。
本文转载自AI研究前瞻,作者:胡耀淇
