zhangyannni
LV.3
这个用户很懒,还没有个人简介
声望 287
关注 0
粉丝 0
私信
主帖 41
回帖
论文链接:https:arxiv.orgpdf2506.10975git地址:​https:chenwl20.github.ioGenWorld亮点直击高质量真实场景数据集:GenWorld首次专注于现实世界场景(如自动驾驶),提供多样化、高逼真度的生成视频,弥补领域空白。物理合理性驱动检测:提出通过3D多视角一致性(而非传统像素瑕疵)区分生成视频,适应生成技术快速发展的挑战。简单有效的模型设计:SpannDetector仅需结合立体重建和时序模块即实现显著性能提升,为可解释检...
12h前 200浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2505.24873项目链接:https:minimaxremover.github.io亮点直击提出了一种轻量且高效的基于DiT的视频目标移除架构。MiniMaxRemover。受到“文本提示并不适合目标移除任务”这一观察的启发,用可学习的对比tokens(contrastivetokens)替代了文本条件,用于控制移除过程。这些tokens被直接集成到自注意力流中,能够移除预训练视频生成模型中的所有交叉注意力层。在第一阶段中,本文模型参数更少,并...
1天前 326浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2504.04158项目主页:https:cvpr2025jarvisir.github.ioGithub仓库:https:github.comLYL1015JarvisIRHuggingfaceOnlineDemo:https:huggingface.cospacesLYL1015JarvisIR背景与动机在自动驾驶等现实应用场景中,视觉感知系统常常受到多种天气退化(如雨、雾、夜间、雪)的影响。传统的单任务方法依赖特定先验知识,而allinone方法只能解决有限的退化组合同时又存在严重的领域差异,难以应对复杂的...
2天前 628浏览 0点赞 1回复 0收藏
香港大学和阿里达摩院联合提出头号玩家(PlayerOne)模型,该方法可以根据用户提供的图像构建一个支持用户自由动作控制且场景一致的真实世界,通过摄像设备实时捕捉用户的动作序列,PlayerOne能够将这些动态信息无缝融入到构建的虚拟世界中,使用户能够以第一人称视角,在如同顶级AAA游戏般的高质量场景中,自由地进行探索与互动。●论文标题:PlayerOne:EgocentricWorldSimulator●项目主页:​​https:playeronehku.github.io...
3天前 184浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgabs2506.05327项目主页:https:aimuofa.github.ioPMLoss代码链接:https:github.comaimuofaPMLoss在新视角合成(NovelViewSynthesis,NVS)技术飞速发展的今天,3D高斯泼溅(3DGaussianSplatting,3DGS)以其出色的实时渲染能力和照片级的视觉效果,成为了该领域的主流技术。为了摆脱传统3DGS“逐场景优化”的束缚,前馈式(Feedforward)3DGS应运而生,它仅需一次网络推理即可完成场景重建,极大地提升了...
6天前 918浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2506.05302项目地址:https:perceiveanything.github.io亮点直击PAM(PerceiveAnythingModel),一种端到端的区域级视觉语言模型,旨在实现图像和视频中快速、全面、细粒度的视觉理解。SemanticPerceiver(语义感知器)的组件,有效利用SAM2主干网络中的中间视觉特征,将通用视觉信息、定位信息和语义先验融合为视觉token。开发了一套先进的数据精炼与增强流程,结合领先的VLM(如GPT4o)与人工专...
7天前 1335浏览 0点赞 0回复 0收藏
文章地址:https:arxiv.orgpdf2505.19415开源地址:https:hanghuacs.github.ioMMIGBench亮点直击统一的任务覆盖与多模态输入:收集了超过380组(涵盖动物、物体、人类和风格等类别),共计1,750张以物体为中心的多视图图像,支持严格的基于参考图像的生成任务。构建了4,850条富含标注的提示语,涵盖组合性(属性、关系、物体、数量)、风格(固定模式、专业风格、自然风格、人类书写)、写实性(想象类)以及常识性(比较、否定...
8天前 810浏览 0点赞 0回复 0收藏
论文链接:​​​https:openaccess.thecvf.comcontentCVPR2025papersHuImprovingAutoregressiveVisualGenerationwithClusterOrientedTokenPredictionCVPR2025paper.pdf​​​项目链接:https:sjtuplayer.github.ioprojectsIARGit链接:https:github.comsjtuplayerIAR单位:上海交通大学、腾讯优图、浙江大学1.引言使用自回归进行视觉生成最近已成为一个研究重点。然而,现有的方法主要是将自回归架构转移到视觉生成中,但很少研...
9天前 458浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2505.19874项目链接:https:stylear.github.io代码链接:https:github.comwuyi2020StyleAR亮点直击提出了一种训练框架,使AR模型能够利用二元文本到图像数据执行风格对齐的文本到图像生成,避免了在指令微调过程中扩展文本图像图像三元组数据的困难。提出了一种风格增强tokens(styleenhancedtokens)技术,有效解决了风格对齐文本到图像生成任务中的内容泄露问题,并显著提升了提示词遵循性和风格...
2025-06-09 10:18:07 644浏览 0点赞 0回复 0收藏
近年来,强化学习(ReinforcementLearning)在提升大型语言模型(LLM)推理能力上的应用持续升温,尤其在“思维链”(ChainofThought,简称CoT)推理方面显示出强大潜力。如今,这一趋势正从文本领域延伸至图像生成。当图像生成也被抽象为一种逐步决策的推理过程时,我们不禁要问:经典的DPO(直接偏好优化)和GRPO(组相对策略优化)在图像生成场景中表现如何?谁在这个新战场更胜一筹?近日,一项由香港中文大学、北京大学和...
2025-06-09 10:12:22 755浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2505.20292项目链接:https:pkuyuangroup.github.ioOpenS2VNexus亮点直击全新的S2V(SubjecttoVideo)基准测试:引入了用于全面评估S2V模型的OpenS2VEval,并提出了三种与人类感知一致的新自动评估指标。S2V模型选择的新见解:通过使用OpenS2VEval进行评估,揭示了多种主体到视频生成(S2V)模型的优势与劣势,提供了关键性见解。大规模S2V数据集:构建了OpenS2V5M数据集,包括510万条高质量常规数...
2025-06-06 10:36:11 1282浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2506.03140项目链接:https:camclonemaster.github.io亮点直击CamCloneMaster,一种新颖的框架,能够实现基于参考视频的精确相机控制来生成视频。该框架无需相机参数或测试时微调,为用户提供了便捷直观的体验。CamCloneMaster通过标记拼接(tokenconcatenation)这一简单高效的方法,在单一模型中集成了相机控制的图像到视频(I2V)生成和视频到视频(V2V)重生成功能,无需额外的控制模块。构建...
2025-06-05 09:37:21 833浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2505.21060项目链接:https:nickisdope.github.ioStyl3R亮点直击提出了一种前馈网络用于3D风格化,该网络处理稀疏无位姿的内容图像和任意风格图像,无需测试时优化,并能很好地泛化到域外输入——使其适用于交互式应用。设计了一种双分支网络架构,将外观建模与结构建模解耦,有效增强了新视角合成与3D风格化的联合学习。本文方法实现了最先进的零样本3D风格化性能,超越了现有零样本方法,并接近...
2025-06-04 08:04:18 925浏览 0点赞 0回复 0收藏
论文链接:​​https:arxiv.orgpdf2505.22642​​项目链接:​https:younggyo.mefasttd3​​亮点直击提出了FastTD3,一种简单、快速且高效的强化学习算法,能够解决多种运动和操作任务,而之前的RL算法需要数十小时才能完成或无法解决。可以通过一个极其简单的方案实现:使用大批次更新、并行仿真、分布式强化学习以及精心调优的超参数来训练TD3智能体。展示了各种设计选择的有效性。发布了一个易于使用的开源FastTD3实现,以加...
2025-06-03 09:22:25 1054浏览 0点赞 0回复 0收藏
文章地址:https:arxiv.orgabs2505.23758开源地址:https:lorashop.github.io(待开源)亮点直击首创多概念LoRA编辑框架:首次实现无需重新训练微调,直接在给定图片中无缝插入多个由LoRA定义的定制化概念(物体、人物、风格)。解耦掩码自动提取技术:创新性利用模型内部特征图,自动生成每个LoRA概念的空间影响区域掩码,精准定位编辑位置。免训练动态融合机制:在推理阶段动态混合多个LoRA权重,仅在其对应掩码区域内激活特定...
2025-06-03 09:14:35 781浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2505.20275Git链接:https:github.comPKUYuanGroupImgEdit亮点直击稳健的流程。引入了一个高质量的数据生成流程,确保数据集具有多样性、代表性,并具备足够的质量以支持图像编辑模型的开发。新数据集。构建了ImgEdit,一个大规模、高质量的数据集,包含110万单轮样本(涵盖10种代表性编辑任务)和11万多轮样本(包含3种新颖的交互类型)。可靠的基准。发布了ImgEditBench,该基准在三个关键维度(...
2025-05-29 10:22:44 959浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2505.10238代码链接:https:github.comDINGYANBMTVCrafter亮点直击MTVCrafter,首个直接建模原始4D动作(而非2D渲染姿态图像)用于开放世界人像动画生成的流程,实现了复杂三维世界中的动画生成。4DMoT,一种新颖的4D动作tokenizer,能够将原始人体动作数据编码为紧凑而富有表现力4D动作token,相较于2D图像表示提供了更稳健的时空引导。设计了MVDiT,一种具备运动感知能力的视频DiT模型,配备了独...
2025-05-28 09:05:24 755浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2505.17022Git链接:https:github.comgogoduanGoTR1亮点直击GoTR1框架,该框架通过强化学习增强视觉生成中的语义空间推理能力,使模型能够自主发现有效的推理策略,而不仅仅依赖预定义的模式。设计了一个全面的双阶段多维度奖励框架,从多个角度评估中间推理过程和最终视觉输出,有效应对视觉生成中强化学习所面临的独特挑战。在T2ICompBench基准测试上展示了显著的性能提升,尤其是在需要精确空间关...
2025-05-28 08:55:29 607浏览 0点赞 0回复 0收藏
可缩放矢量图形(ScalableVectorGraphics,SVG)是用于描述二维图型和图型应用程序的基本元素;与传统的像素图形不同,SVG使用数学描述来定义图形,因此可以在任何大小下无损地缩放而不失真。这使得SVG成为网站设计领域的理想选择,特别是在需要适应不同分辨率和设备的情况下。但是创作者手工设计SVG是高成本并具有挑战的。最近,随着CLIP和生成式模型的快速发展,文本引导的矢量图合成(TexttoSVG)在抽象像素风格[1,2]和矢量...
2024-04-08 10:21:43 3393浏览 0点赞 0回复 0收藏
我们在GitHub上开源了一个个性化联邦学习算法仓库(PFLlib),目前已经获得1K+个Star和200+个Fork,在业内收到了广泛的好评。PFLlib囊括了34个联邦学习算法(其中包含27个个性化联邦学习算法)、3大类数据异质场景、20个数据集。​开源该仓库的主要目的是:1)降低初学者研究个性化联邦学习算法的门槛;2)提供一个统一的实验环境,在多种场景和多个方面对不同个性化联邦学习算法进行评估,为个性化联邦学习算法在具体场景中应...
2024-04-08 10:08:01 3229浏览 0点赞 0回复 0收藏
获得成就
已积累 2.1w 人气
获得 0 个点赞
获得 1 次收藏