zhangyannni
LV.5
这个用户很懒,还没有个人简介
声望 867
关注 0
粉丝 0
私信
主帖 91
回帖
论文链接:​​https:arxiv.orgpdf2509.09680​​模型链接:​​https:github.comrongyaofangprismbench​​Dataset链接:​​https:huggingface.codatasetsLucasFangFLUXReason6M​​​Git链接:​​​https:fluxreason6m.github.io​​亮点直击FLUXReason6M:一个里程碑式的数据集。首个专为推理设计的600万规模T2I数据集,包含2000万条双语描述,首创的生成式“思维链”提示。该数据集使用128张A100显卡,历时4个月构建,旨...
16h前 374浏览 0点赞 0回复 0收藏
文章地址:https:arxiv.orgpdf2509.02722亮点直击提出学习一种以自然语言作为抽象世界状态表示的世界模型。引入了视觉语言世界模型(VisionLanguageWorldModel,VLWM),该模型通过视觉观察感知环境,并利用基于语言的抽象来预测世界的演化过程。提出将直接世界建模作为目标,并以大规模、未经过滤的视频数据为基础进行训练。采用了一条高效的抽象处理流程,并引入了一种反思式的System2模式,即“带推理的规划(planningwithrea...
4天前 1484浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2509.01085亮点直击BSA——一种可训练的双向动态稀疏注意力框架,该框架首次在视频扩散训练中对全注意力机制中的查询(Query)及键值对(KeyValue)进行正交稀疏化处理以加速训练过程。为查询块和键值块设计了不同的动态稀疏化策略,有效捕捉训练过程中的注意力变化特性,实现超越固定模式的自适应标记选择。在Wan2.11.3B数据集表明:BSA可实现最高20倍的浮点运算量降低、17.7倍的训练加速以及6倍...
5天前 932浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2509.04582项目链接:https:visualai.github.ioinpaint4drag基于拖动的图像编辑方法比较亮点直击一个物理启发的变形框架,将图像区域视为弹性材料,通过用户指定的控制点和区域掩码实现自然变换,并提供可选的掩码细化功能以处理精确的对象边界。一种高效的双向扭曲算法,通过前向扭曲建立初始形状,并通过反向映射填充间隙,创建密集的像素对应关系,同时保持实时性能。一种模块化pipeline,清晰...
6天前 526浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2508.21058项目链接:https:primecai.github.iomoc亮点直击提出MoC框架,将每个查询路由到视频序列中最相关的片段,而不是依赖统一或静态的稀疏注意力机制或固定选择策略。引入了因果路由mask,以强制交互图为有向无环图,提升在分钟级序列上的展开鲁棒性。将密集自注意力替换为MoC机制,能够将长视频生成转化为一种内部上下文检索过程。MoC能够裁剪超过85%的token对,将注意力FLOPs成本最多减少7...
2025-09-05 09:17:12 1915浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2508.20751项目链接:https:codegoat24.github.ioUnifiedRewardPrefGRPO亮点直击提出分析视角,揭示奖励欺骗(RewardHacking)的根本原因是“虚假优势问题”;基于上述分析,提出了PREFGRPO——首个基于成对偏好奖励的GRPO方法,用于稳定的文本生成图像(T2I)强化学习。该方法将传统的“最大化绝对奖励分数”的优化目标,重新表述为“拟合成对偏好”;PREFGRPO能够识别图像质量中的细微差异,从而...
2025-09-04 09:22:05 915浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgabs2508.11255项目链接:https:fantasyamap.github.iofantasytalking2亮点直击TalkingCritic,一个统一的多模态奖励模型,能够准确量化生成肖像动画与多维度人类期望之间的对齐程度。引入了TalkingNSQ,一个包含41万样本的大规模肖像动画偏好数据集,它系统地涵盖了用户在音视频同步、视觉质量和运动自然度方面的偏好。提出了一种新颖的偏好对齐方法,称为TLPO,该方法能够跨时间步和网络层自适应地整...
2025-09-03 09:09:22 1151浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgabs2508.20505项目链接:https:twinklece.github.ioDescriptiveEdit亮点直击:基于描述的图像编辑新范式:与现有方法依赖指令(instruction)表达编辑意图不同,本文提出描述(description)直接引导的语义编辑框架DescriptiveEdit。参考图控制策略:DescriptiveEdit在去噪过程中实现参考图控制,并通过零初始化的线性层学习自适应权重,有效缓解了图像编辑中精准编辑与结构保真的冲突。兼容良好且编...
2025-09-02 09:08:14 848浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2508.10898Git链接:https:chaoyuesong.github.ioPuppeteer亮点直击构建了一个大规模的rigging数据集,包含59,400个已绑定模型,并提供多姿态子集;提出了一种新颖的自回归骨架生成方法,采用高效的基于关节的tokenization方式与分层序列排序,并结合随机化策略;设计了一种基于注意力机制的蒙皮权重预测架构,融合了具备拓扑感知能力的关节注意力机制;提出了一种可微分的基于优化的动画方法,能...
2025-09-01 09:12:14 2313浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2508.18966Git链接:https:github.combytedanceUSO亮点直击概念:现有的风格驱动和主体驱动方法仅专注于各自任务内的孤立解耦,忽略了它们之间的潜在互补性,从而导致次优的解耦效果。首次提出了一种新颖的跨任务协同解耦范式,该范式统一了风格驱动和主体驱动任务,实现了相互增强,并为两者带来了显著的性能提升。技术:引入了USO,一个统一的定制架构,它结合了渐进式风格对齐训练、内容风格解耦...
2025-09-01 08:29:38 1616浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgabs2508.16930项目链接:https:szczesnys.github.iohunyuanvideofoley亮点直击提出了一种高效的TV2A数据pipeline,能够自动整理包含10万小时级别文本视频音频对的大规模高质量数据集。引入了一种REPA损失函数,利用预训练音频特征为音频建模过程提供语义和声学指导,有效提升音频生成质量与稳定性。提出了HunyuanVideoFoley,一种新颖的TV2A框架,能够从视频和文本输入生成高质量、语义和时序对齐的音...
2025-08-29 08:49:46 1369浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2508.14160Git链接:https:github.comalibabadamoacademyRynnEC亮点直击RynnEC,一个旨在增强机器人对物理世界理解能力的具身认知型多模态大语言模型。提出了一条数据生成流程,将自我中心的RGB视频转换为具身认知问答数据集。构建了一个细粒度的具身认知基准数据集RynnECBench,涵盖了22项物体与空间认知任务。大量实验证明,在具身场景中的认知能力方面,RynnEC显著优于通用型MLLM(如GPT4o等)...
2025-08-29 08:44:32 1499浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2508.13154项目链接:https:4dnex.github.io亮点直击4DNeX,首个用于图像到4D生成的前馈框架,能够从单张图像生成动态点云;构建了4DNeX10M,一个具有高质量4D标注的大规模数据集;引入了一套简单但有效的微调策略,用于将预训练的视频扩散模型适配到4D生成任务中。总结速览解决的问题现有的4D(动态3D)场景生成方法普遍依赖计算密集型的优化过程或多帧视频输入,导致效率低、泛化能力差,且难以...
2025-08-26 09:25:25 2137浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2508.08189git链接:https:github.comweijiawuAwesomeVisualReinforcementLearning亮点直击系统综述200余项视觉强化学习研究,涵盖MLLMs、视觉生成、统一模型和视觉语言行动智能体分析各子领域在策略优化、奖励建模与基准测试的进展,揭示核心挑战:如视觉生成的奖励设计、推理与VLA任务的中间监督缺失提出基于指标粒度与奖励监督的视觉RL分类法,包括图像生成的三种奖励范式,为跨领域策略选择与...
2025-08-25 09:20:04 2086浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2508.15772Git链接:https:github.comHiDreamaiVAREdit亮点直击VAREdit,这是首个基于微调的视觉自回归模型,用于指令引导的图像编辑任务;本文发现了VAREdit在最精细尺度条件下存在尺度不匹配问题,并提出了SAR模块作为有效的解决方案;VAREdit在标准图像编辑基准上取得了新SOTA,在编辑遵循性和生成效率方面均超越了主流扩散模型。VAREdit在指令引导的图像编辑中实现了高精度性能。它在各种复杂...
2025-08-25 09:02:43 1083浏览 0点赞 0回复 0收藏
论文链接:​​https:arxiv.orgpdf2508.13009​​项目链接:https:matrixgamev2.github.io​亮点直击MatrixGame2.0——一个专为实现实时性能与稳健泛化能力而设计的新型框架。其技术核心是一个集成动作控制模块的视频扩散Transformer,并通过SelfForcing技术蒸馏为一个因果性、少步长的自回归模型。该架构结合高效的KV缓存机制,支持训练与推理,在单张H100GPU上实现25帧秒的生成速度,同时在超出训练分布的复杂野外场景中保持...
2025-08-22 09:10:09 954浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2508.08134项目链接:https:followyourshape.github.io亮点直击一种新颖且无需训练的编辑框架FollowYourShape,利用轨迹差异图(TrajectoryDivergenceMap,)实现精确的大尺度形状变换,同时保留背景内容。一种基于轨迹的分阶段注入策略,通过在整个去噪过程中自适应调整引导机制,提升编辑稳定性。一个新的基准测试集ReShapeBench,专为系统性评估形状感知图像编辑方法而设计。总结速览解决的问题...
2025-08-21 08:34:38 1381浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2508.09987项目链接:https:yejy53.github.ioEcho4oGit链接:https:github.comyejy53Echo4o数据集:https:huggingface.codatasetsYejy53Echo4oImage亮点直击分析并总结了合成数据相对于真实世界图像的优势,强调其能够生成罕见场景,并为指令跟随任务提供纯净、长尾分布的监督信号。Echo4oImage,一个包含18万样本的合成数据集,使用GPT4o生成,涵盖超现实场景、多参考生成和指令跟随任务。数据集...
2025-08-20 09:50:50 1641浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2508.10881项目链接:https:lgli.github.ioprojecttooncomposer亮点直击后关键帧阶段(postkeyframingstage),一种新的卡通制作范式,将中间帧补全与上色整合为一个由AI驱动的流程,显著减少了人工工作量。ToonComposer,首个基于DiT的卡通生成模型,专为后关键帧阶段设计,结合稀疏草图注入与区域控制功能,能够从稀疏输入生成高质量的卡通视频。设计了一种基于SLRA的卡通适配机制,一种新颖的低...
2025-08-19 09:35:36 6990浏览 0点赞 1回复 0收藏
文章链接:https:arxiv.orgpdf2508.10711项目链接:https:stepfun.airesearchennextstep1Git链接:https:github.comstepfunaiNextStep1亮点直击首创连续图像流匹配自回归架构:用轻量级流匹配头(157M)实现patchbypatch生成;摆脱传统扩散模型依赖,保持SOTA生成质量突破性高维隐空间稳定技术:创新通道归一化+随机扰动tokenizer设计;支持16通道高维空间稳定训练,无伪影生成统一的多模态生成编辑框架:单序列处理离散文本和连续...
2025-08-18 09:33:25 2780浏览 0点赞 0回复 0收藏
获得成就
已积累 5.0w 人气
获得 0 个点赞
获得 2 次收藏