zhangyannni
LV.3
这个用户很懒,还没有个人简介
声望 343
关注 0
粉丝 0
私信
主帖 46
回帖
论文链接:https:arxiv.orgpdf2506.15563给定用户提供的边界框和主题提示,WinWinLay使用预训练的扩散模型(如SDXL)生成可控且逼真的图像,无需使用配对数据进行任何微调。亮点直击首次对现有反向引导方法进行了理论分析。基于该理论洞见,提出了面向布局生成图像(LayouttoImage)的先进方法WinWinLay,在控制精度与真实感质量上实现显著突破。提出新型非局部注意力能量函数,在保持物体自然结构的同时,使模型更严格遵循空间约...
1天前 139浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2506.15564Git链接:https:github.comshowlabShowo亮点直击提出了一种改进的原生统一多模态模型,无缝整合自回归建模与流匹配技术,能够跨(交错)文本、图像及视频实现广泛的多模态理解与生成任务。基于3D因果VAE空间,通过语义与低维特征的双路径时空融合机制,构建了可扩展至多模态理解与生成、图像与视频模态的统一视觉表示。设计了一种两阶段训练流程,高效学习统一多模态模型,既能保留语言...
5天前 543浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2506.18899项目链接:https:filmasterai.github.ioFilMaster生成的视频样本亮点直击一种融合电影原则的新型系统:提出FilMaster,首个基于AI的综合性电影生成系统,明确围绕电影原则设计,以指导镜头语言和电影节奏。它填补了从剧本到成片的鸿沟。从真实电影中学习摄影技术:提出一种新颖的多镜头协同RAG镜头语言设计模块,从大量真实电影中学习摄影模式,生成连贯且富有表现力的视觉效果,实现多镜...
7天前 1208浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2506.13594项目链接:https:ai4scientificimaging.orgdive3d效果展示与GaussianSplatting基线的比较。Dive3D可以在不同的3D表示中生成3D对象Dive3D3DGaussianSplattings亮点直击SIM损失替代KL散度:提出基于梯度匹配的SIM损失,从根本上解决KL散度导致的模式坍塌问题,显著提升多样性。统一框架:首次将扩散蒸馏和奖励引导优化统一为发散最小化问题,实现多目标协同优化。全方面性能提升:在多样性...
9天前 600浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2506.10395亮点直击解耦视觉编码架构:首创分任务设计视觉编码器,解决理解与生成的固有矛盾。三阶段渐进训练:通过数据分层优化,实现细粒度多模态对齐与强指令跟随能力。任务协同效应:首次揭示图像理解与生成在统一框架中的相互增强作用。开源组件高效整合:巧妙结合CLIP、扩散模型和LLM,平衡性能与计算成本。Pisces在图像生成和理解方面都表现出色总结速览解决的问题统一多模态模型的性能差距...
2025-06-20 09:36:58 1062浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2506.10975git地址:​https:chenwl20.github.ioGenWorld亮点直击高质量真实场景数据集:GenWorld首次专注于现实世界场景(如自动驾驶),提供多样化、高逼真度的生成视频,弥补领域空白。物理合理性驱动检测:提出通过3D多视角一致性(而非传统像素瑕疵)区分生成视频,适应生成技术快速发展的挑战。简单有效的模型设计:SpannDetector仅需结合立体重建和时序模块即实现显著性能提升,为可解释检...
2025-06-19 08:57:17 890浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2505.24873项目链接:https:minimaxremover.github.io亮点直击提出了一种轻量且高效的基于DiT的视频目标移除架构。MiniMaxRemover。受到“文本提示并不适合目标移除任务”这一观察的启发,用可学习的对比tokens(contrastivetokens)替代了文本条件,用于控制移除过程。这些tokens被直接集成到自注意力流中,能够移除预训练视频生成模型中的所有交叉注意力层。在第一阶段中,本文模型参数更少,并...
2025-06-18 10:03:41 930浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2504.04158项目主页:https:cvpr2025jarvisir.github.ioGithub仓库:https:github.comLYL1015JarvisIRHuggingfaceOnlineDemo:https:huggingface.cospacesLYL1015JarvisIR背景与动机在自动驾驶等现实应用场景中,视觉感知系统常常受到多种天气退化(如雨、雾、夜间、雪)的影响。传统的单任务方法依赖特定先验知识,而allinone方法只能解决有限的退化组合同时又存在严重的领域差异,难以应对复杂的...
2025-06-17 09:43:30 1048浏览 0点赞 0回复 0收藏
香港大学和阿里达摩院联合提出头号玩家(PlayerOne)模型,该方法可以根据用户提供的图像构建一个支持用户自由动作控制且场景一致的真实世界,通过摄像设备实时捕捉用户的动作序列,PlayerOne能够将这些动态信息无缝融入到构建的虚拟世界中,使用户能够以第一人称视角,在如同顶级AAA游戏般的高质量场景中,自由地进行探索与互动。●论文标题:PlayerOne:EgocentricWorldSimulator●项目主页:​​https:playeronehku.github.io...
2025-06-16 09:44:01 371浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgabs2506.05327项目主页:https:aimuofa.github.ioPMLoss代码链接:https:github.comaimuofaPMLoss在新视角合成(NovelViewSynthesis,NVS)技术飞速发展的今天,3D高斯泼溅(3DGaussianSplatting,3DGS)以其出色的实时渲染能力和照片级的视觉效果,成为了该领域的主流技术。为了摆脱传统3DGS“逐场景优化”的束缚,前馈式(Feedforward)3DGS应运而生,它仅需一次网络推理即可完成场景重建,极大地提升了...
2025-06-13 09:09:29 1410浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2506.05302项目地址:https:perceiveanything.github.io亮点直击PAM(PerceiveAnythingModel),一种端到端的区域级视觉语言模型,旨在实现图像和视频中快速、全面、细粒度的视觉理解。SemanticPerceiver(语义感知器)的组件,有效利用SAM2主干网络中的中间视觉特征,将通用视觉信息、定位信息和语义先验融合为视觉token。开发了一套先进的数据精炼与增强流程,结合领先的VLM(如GPT4o)与人工专...
2025-06-12 09:24:04 1767浏览 0点赞 0回复 0收藏
文章地址:https:arxiv.orgpdf2505.19415开源地址:https:hanghuacs.github.ioMMIGBench亮点直击统一的任务覆盖与多模态输入:收集了超过380组(涵盖动物、物体、人类和风格等类别),共计1,750张以物体为中心的多视图图像,支持严格的基于参考图像的生成任务。构建了4,850条富含标注的提示语,涵盖组合性(属性、关系、物体、数量)、风格(固定模式、专业风格、自然风格、人类书写)、写实性(想象类)以及常识性(比较、否定...
2025-06-11 09:26:42 992浏览 0点赞 0回复 0收藏
论文链接:​​​https:openaccess.thecvf.comcontentCVPR2025papersHuImprovingAutoregressiveVisualGenerationwithClusterOrientedTokenPredictionCVPR2025paper.pdf​​​项目链接:https:sjtuplayer.github.ioprojectsIARGit链接:https:github.comsjtuplayerIAR单位:上海交通大学、腾讯优图、浙江大学1.引言使用自回归进行视觉生成最近已成为一个研究重点。然而,现有的方法主要是将自回归架构转移到视觉生成中,但很少研...
2025-06-10 09:36:24 618浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2505.19874项目链接:https:stylear.github.io代码链接:https:github.comwuyi2020StyleAR亮点直击提出了一种训练框架,使AR模型能够利用二元文本到图像数据执行风格对齐的文本到图像生成,避免了在指令微调过程中扩展文本图像图像三元组数据的困难。提出了一种风格增强tokens(styleenhancedtokens)技术,有效解决了风格对齐文本到图像生成任务中的内容泄露问题,并显著提升了提示词遵循性和风格...
2025-06-09 10:18:07 818浏览 0点赞 0回复 0收藏
近年来,强化学习(ReinforcementLearning)在提升大型语言模型(LLM)推理能力上的应用持续升温,尤其在“思维链”(ChainofThought,简称CoT)推理方面显示出强大潜力。如今,这一趋势正从文本领域延伸至图像生成。当图像生成也被抽象为一种逐步决策的推理过程时,我们不禁要问:经典的DPO(直接偏好优化)和GRPO(组相对策略优化)在图像生成场景中表现如何?谁在这个新战场更胜一筹?近日,一项由香港中文大学、北京大学和...
2025-06-09 10:12:22 1278浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2505.20292项目链接:https:pkuyuangroup.github.ioOpenS2VNexus亮点直击全新的S2V(SubjecttoVideo)基准测试:引入了用于全面评估S2V模型的OpenS2VEval,并提出了三种与人类感知一致的新自动评估指标。S2V模型选择的新见解:通过使用OpenS2VEval进行评估,揭示了多种主体到视频生成(S2V)模型的优势与劣势,提供了关键性见解。大规模S2V数据集:构建了OpenS2V5M数据集,包括510万条高质量常规数...
2025-06-06 10:36:11 1473浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2506.03140项目链接:https:camclonemaster.github.io亮点直击CamCloneMaster,一种新颖的框架,能够实现基于参考视频的精确相机控制来生成视频。该框架无需相机参数或测试时微调,为用户提供了便捷直观的体验。CamCloneMaster通过标记拼接(tokenconcatenation)这一简单高效的方法,在单一模型中集成了相机控制的图像到视频(I2V)生成和视频到视频(V2V)重生成功能,无需额外的控制模块。构建...
2025-06-05 09:37:21 1048浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2505.21060项目链接:https:nickisdope.github.ioStyl3R亮点直击提出了一种前馈网络用于3D风格化,该网络处理稀疏无位姿的内容图像和任意风格图像,无需测试时优化,并能很好地泛化到域外输入——使其适用于交互式应用。设计了一种双分支网络架构,将外观建模与结构建模解耦,有效增强了新视角合成与3D风格化的联合学习。本文方法实现了最先进的零样本3D风格化性能,超越了现有零样本方法,并接近...
2025-06-04 08:04:18 1106浏览 0点赞 0回复 0收藏
论文链接:​​https:arxiv.orgpdf2505.22642​​项目链接:​https:younggyo.mefasttd3​​亮点直击提出了FastTD3,一种简单、快速且高效的强化学习算法,能够解决多种运动和操作任务,而之前的RL算法需要数十小时才能完成或无法解决。可以通过一个极其简单的方案实现:使用大批次更新、并行仿真、分布式强化学习以及精心调优的超参数来训练TD3智能体。展示了各种设计选择的有效性。发布了一个易于使用的开源FastTD3实现,以加...
2025-06-03 09:22:25 1278浏览 0点赞 0回复 0收藏
文章地址:https:arxiv.orgabs2505.23758开源地址:https:lorashop.github.io(待开源)亮点直击首创多概念LoRA编辑框架:首次实现无需重新训练微调,直接在给定图片中无缝插入多个由LoRA定义的定制化概念(物体、人物、风格)。解耦掩码自动提取技术:创新性利用模型内部特征图,自动生成每个LoRA概念的空间影响区域掩码,精准定位编辑位置。免训练动态融合机制:在推理阶段动态混合多个LoRA权重,仅在其对应掩码区域内激活特定...
2025-06-03 09:14:35 945浏览 0点赞 0回复 0收藏
获得成就
已积累 2.3w 人气
获得 0 个点赞
获得 1 次收藏