zhangyannni
LV.4
这个用户很懒,还没有个人简介
声望 639
关注 0
粉丝 0
私信
主帖 71
回帖
文章链接:https:arxiv.orgpdf2508.06033Git链接:https:github.comSupercomputingSystemAILabInstantEdit亮点直击少步高效编辑:首次在RectifiedFlow框架下实现8步高质量图像编辑,速度接近实时交互需求。创新反转与生成技术:提出PerRFI和ILI,解决少步扩散模型的反转不准确和生成不一致问题。解耦与结构控制:通过DPG和ControlNet的联合应用,实现编辑区域的精准定位与全局结构保持,显著提升可控性。总结速览解决的问题计算...
1天前 418浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2508.08189git链接:https:github.comweijiawuAwesomeVisualReinforcementLearning亮点直击系统综述200余项视觉强化学习研究,涵盖MLLMs、视觉生成、统一模型和视觉语言行动智能体分析各子领域在策略优化、奖励建模与基准测试的进展,揭示核心挑战:如视觉生成的奖励设计、推理与VLA任务的中间监督缺失提出基于指标粒度与奖励监督的视觉RL分类法,包括图像生成的三种奖励范式,为跨领域策略选择与...
2天前 1183浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2508.08949与SOTA方法的比较亮点直击一种进阶版的故事生成任务:布局可切换的故事生成(LayoutTogglableStorytelling),通过引入布局条件实现主题的精准控制。该方法在确保主题一致性的同时,支持对主题位置、外观、服装、表情、姿态等细节的精细调控。构建了Lay2Story1M数据集,是目前规模最大的故事生成数据集,包含超100万张720p及以上分辨率的图像,并附带详细主题标注。Lay2Story,一种基于D...
2天前 698浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2508.05580亮点直击提出基于MLLM的高效数据合成智能体框架FollowYourInstruction,可为多样AIGC任务合成真实世界数据;为实现高质量高效数据生成,引入综合基准以评估MLLM驱动智能体在2D、3D与4D层级的表现,并开发多种MLLM辅助数据生成形式(包括上下文引导与长期指导);通过微调3种最新基线模型在典型2D、3D与4D任务上的实验证明,采用我们的数据能显著提升模型在下游应用的性能。随着AI生成内...
4天前 1954浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2508.04559项目链接:https:onemodelforall.github.io亮点直击OMFA,首个在单一架构中统一执行虚拟试穿(tryon)和试脱(tryoff)的框架,支持跨个体和双向的服装迁移。提出了一种新颖的部分扩散机制,选择性地对服装相关区域施加噪声,实现高效、局部化的建模,无需依赖分割掩码或模板服装。结合了基于SMPLX的姿态条件,支持从单张肖像图像生成任意姿态和多视角的试穿效果,提升了试穿合成的真实...
8天前 2794浏览 0点赞 0回复 0收藏
论文链接:​​https:arxiv.orgpdf2508.03694​​项目链接:https:vchitect.github.ioLongVieproject​亮点直击对现有可控长视频生成模型的局限性进行了全面分析,识别出两个关键挑战:长期时序不一致性和视觉质量退化。基于此提出LongVie,首个用于可控长视频生成的自回归框架。为了提升视觉质量,提出了一种多模态控制机制,将密集控制信号与稀疏控制信号相结合,以发挥它们各自的优势。同时引入一种感知退化的训练策略,以平...
9天前 2554浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2507.23785开源地址:https:gvfdiffusion.github.io亮点直击新颖的4D生成建模框架,由两个核心模块组成:直接的4D网格到高斯变分场的VAE(变分自编码器)与高斯变分场扩散模型。训练了一个扩散模型,用于学习变分场在隐空间中的分布,该模型以输入视频和标准3DGS为条件,从而实现可控的4D内容生成。借助本文隐空间的紧凑性,采用DiT架构,并引入了时间自注意力层,以捕捉动画序列中的平滑时间动态...
2025-08-04 09:23:33 2070浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2507.15728项目链接:https:vicky0522.github.iotokensgenwebpage亮点直击TokensGen,通过压缩视频Token桥接短片段生成与长程一致性。To2V模型(片段级内容控制),基于预训练骨干网络(CogVideoX)构建的视频Tokenizer,将短片段编码为高语义密度的压缩Token。T2To模型(长程一致性控制),创新性设计视频Token扩散Transformer,直接从文本提示生成分钟级视频的完整Token序列。自适应FIFODiffusio...
2025-07-30 08:58:03 1338浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2507.17801代码链接:https:github.comAlphaVLLMLuminamGPT2.0亮点直击LuminamGPT2.0,一种独立的、仅使用解码器的自回归模型,旨在重新审视并振兴自回归范式,以实现高质量图像生成及更多应用。完全从零开始训练,实现了架构设计上的无限自由和许可上的完全开放。该模型在生成质量方面可与最先进的扩散模型(如DALL·E3和SANA)相媲美,同时保留了自回归建模所固有的灵活性和组合性。统一分词方案...
2025-07-29 09:09:34 770浏览 0点赞 0回复 0收藏
文章地址:https:arxiv.orgpdf2507.18569亮点直击对抗分布匹配(ADM):提出一种新的对抗学习框架,利用扩散判别器在隐空间对齐真实和伪造分数估计器的预测,替代传统显式散度度量(如KL散度),避免模式崩溃,提升生成多样性。混合判别器对抗蒸馏:在一步蒸馏任务中,结合隐空间+像素空间的混合判别器,优化预训练生成器,通过ODE轨迹分布损失提供更好的初始化,提升训练稳定性。DMDX统一流程(预训练+微调):将对抗蒸馏预训...
2025-07-28 09:16:58 1534浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgabs2505.02192开源代码链接:https:github.comwenckDualReal项目主页链接:https:wenck.github.iodualrealcustomization亮点直击传统的身份—运动视频定制方法,通常对两种模态采用孤立训练范式,忽略了身份与运动特征间的内在约束与依赖,从而损害了彼此的定制性能。DualReal在主体身份和运动动态两个模式上进行自适应联合训练,实现高质量的定制化生成任务。DualReal是首个基于DiT架构的“身份—运...
2025-07-25 10:38:08 1012浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgabs2507.12956Git链接:https:fantasyamap.github.iofantasyportrait给定一幅肖像图像和一段参考运动视频,FantasyPortrait在跨身份重演过程中可以生成栩栩如生的动画肖像。无论是单个角色还是多个角色,它都能实现高保真度的面部动态和自然的头部运动。亮点直击提出了一种基于表情增强的隐式面部表情控制方法,通过分解的隐式表示和表情感知学习模块,增强对细微表情动态和复杂情感的捕捉能力。设计...
2025-07-23 08:37:20 1501浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2507.13345本文方法在仅使用较小数据集(3100万)的情况下实现了更优的概念组合能力。现有模型普遍存在对象缺失、属性错位和概念纠缠问题。具体而言:图(a)(b)缺失预期概念(双胞胎、羽毛);图(c)(d)错误匹配了主体属性;图(e)(f)混杂了不必要概念(餐叉、腿部)亮点直击展示了当模型和训练数据达到足够规模时,数据分布成为模型概念组合能力的主要决定因素。提出了概念级均衡方法(IMBA损失),...
2025-07-22 11:09:10 670浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2507.05397主页链接:https:loongx1.github.io亮点直击LMind:一个多模态数据集,包含23,928对图像编辑样本,配套采集了在自然环境下的脑电(EEG)、功能性近红外光谱(fNIRS)、脉搏波(PPG)、动作和语音信号。LoongX:一种新颖的神经驱动图像编辑方法,结合了CS3和DGF模块,用于高效的特征提取和多模态信息融合(效果见下图1)。大量实验证实多模态神经信号的有效性,并深入分析了各模态的特定...
2025-07-21 09:20:16 1440浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2507.11533Git链接:https:github.comMurrayWangCharaConsist在固定背景下生成一致的角色不同背景下一致的角色生成故事生成亮点直击现有的一致性生成方法采用了相对粗略的任务设定,主要关注于相似角色在不同场景中的过渡,而缺乏对角色细节和背景环境的细粒度一致性。CharaConsist,利用点追踪和掩码提取自动感知关键特征,从而实现细粒度一致性,使其非常适合实际应用场景。CharaConsist是第一个...
2025-07-18 11:15:15 1435浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2507.08801项目链接:https:github.comalibabadamoacademyLumosLumos1生成的示例可视化。Lumos1支持文本到图像、图像到视频和文本到视频任务亮点直击MMRoPE创新:首次在视频生成中优化3DRoPE的频谱分配与位置缩放,兼顾文本与视频模态的兼容性。ARDF训练策略:通过时域管状掩码解决帧间信息冗余问题,实现平衡的帧级损失与高质量推理。轻量高效架构:仅需最小LLM修改,无需外部文本编码器,以48块G...
2025-07-17 09:45:04 1551浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2507.10065项目链接:https:chenguolin.github.ioprojectsMoVieSGit链接:​​https:github.comchenguolinMoVieS​​亮点直击MoVieS,首个前馈式框架,可从单目视频联合建模外观、几何和运动,实现4D场景感知。动态溅射像素(dynamicsplatterpixels),将动态3D场景表示为可渲染、可形变的3D粒子,桥接新视角合成与动态几何重建。MoVieS在4D重建任务中实现了强劲性能,并带来数个数量级的加速,同...
2025-07-16 10:29:49 1371浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2503.04641亮点直击首次统一2D、视频、3D和4D生成研究的综述,为该研究领域提供了结构化和全面的概述。从数据维度增长的角度,通过多模态生成模型的视角,系统性地回顾了现实世界模拟的方法。从多个角度调查了常用数据集、其特性以及相应的评估指标。它指出了开放的研究挑战,旨在为该领域的进一步探索提供指导。理解并复现现实世界是通用人工智能(AGI)研究中的一个关键挑战。为实现这一目标,许...
2025-07-15 09:15:01 1335浏览 0点赞 0回复 1收藏
论文链接:https:arxiv.orgpdf2507.07966​Git链接:​​​​https:github.comNVlabsLongRL​​​亮点直击LongVILAR1,一个面向长视频理解推理能力的综合性框架。构建了一个高质量长视频推理数据集LongVideoReason,包含了带有链式思维(CoT)标注的推理样本。整理了一个包含1000条长视频样本的平衡评估集LongVideoReasoneval,从四个维度全面评估:时间推理、目标与意图推理、空间推理、情节与叙事推理。提出了一种新的训练框...
2025-07-14 09:55:08 1683浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2507.07104项目链接:https:tiezheng11.github.ioVLVWebPage亮点直击视觉语言视觉(VLV)自编码器,这是一种从预训练文本到图像扩散模型中实现可扩展且高效知识蒸馏的新框架。该方法仅通过基于图像的训练即可学习语言语义表示。通过策略性整合预训练模型,构建轻量级但高效的基于LLM的描述解码器,实现可忽略的训练开销。结果表明,所提出的描述生成器相较于GPT4o等先进VLM展现出高度竞争力,并超...
2025-07-11 08:23:31 1345浏览 0点赞 0回复 0收藏
获得成就
已积累 3.7w 人气
获得 0 个点赞
获得 2 次收藏