angel
LV.9
这个用户很懒,还没有个人简介
声望 3194
关注 0
粉丝 7
私信
主帖 342
回帖
文章链接:https:arxiv.orgpdf2505.10562亮点直击提出了一种新的视觉分词器训练范式,以释放视觉分词器在下游自回归任务中的潜力。该视觉分词器能够感知并针对下游训练进行优化。引入了一种简单而有效的端到端视觉分词器调优方法ETT。ETT利用分词器的码本嵌入而不仅限于离散索引,并应用词级描述损失来优化视觉分词器的表示。ETT显著提升了基于下一词预测范式的下游任务结果,包括多模态理解和生成任务,同时保持了分词器的重建...
11h前 129浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2505.09568代码链接:https:github.comJiuhaiChenBLIP3o模型链接:https:huggingface.coBLIP3oBLIP3oModel预训练数据:https:huggingface.codatasetsBLIP3oBLIP3oPretrain优化数据:https:huggingface.codatasetsBLIP3oBLIP3o60k亮点直击创新架构设计:首次采用扩散Transformer生成CLIP语义特征,突破传统VAE局限,实现高效训练与高质量生成。分阶段训练策略:通过“理解优先,生成扩展”的序列化训...
3天前 604浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2505.07344亮点直击GPDiT,一个强大的自回归视频生成框架,利用帧级因果注意力来提升长时间跨度的时序一致性。为了进一步提高效率,提出了一种轻量级的因果注意力变体,显著降低了训练和推理时的计算成本。通过重新解释扩散模型的前向过程,引入了一种基于旋转的条件策略,提供了一种无参数的时间信息注入方法。这种轻量级设计消除了与adaLNZero相关的参数,同时实现了与最先进的基于DiT的方法相当...
4天前 699浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2505.05474Git链接:https:github.comhzxieAwesome3DSceneGeneration亮点直击综述了3D场景生成SOTA方法;组织为四种范式:程序化生成、基于神经网络的3D生成、基于图像的生成和基于视频的生成;分析了它们的技术基础、权衡和代表性结果,并回顾了常用数据集、评估协议和下游应用;讨论了生成能力、3D表示、数据和标注以及评估中的关键挑战,并概述了包括更高真实度、物理感知和交互生成以及统一感知生...
5天前 578浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2505.02567开源链接:https:github.comAIDCAIAwesomeUnifiedMultimodalModels亮点直击阐述多模态理解与文生图模型的基础概念与最新进展;继而梳理现有统一模型,将其归纳为三大架构范式:基于扩散的架构、基于自回归的架构,以及融合自回归与扩散机制的混合架构;整理了适配统一模型的数据集与评测基准,为后续研究提供资源支持;探讨了这一新兴领域面临的核心挑战,包括分词策略、跨模态注意力机制与...
7天前 880浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2505.04512项目链接:https:hunyuancustom.github.io亮点直击多模态条件融合:首次实现图像、音频、视频、文本四模态联合驱动的定制视频生成,突破传统单模态(如图像)限制。身份一致性强化:通过时序拼接和跨帧特征增强,显著提升生成视频中主题的ID一致性,优于开源和商业模型。模块化条件注入:提出AudioNet和视频Patchify对齐等独立模块,实现多模态条件的高效解耦与融合,兼顾灵活性与性能。效...
2025-05-09 08:41:09 959浏览 0点赞 0回复 0收藏
文章:​​https:arxiv.orgpdf2505.02831​​代码:https:github.comvvvvvjdySRA亮点直击分析发现:文章深入分析diffusiontransformer的潜在表征趋势,发现当只执行生成训练时,其会拥有一个大致从粗糙到细致,从差到好的表征(判别)过程。方法提出:文章引入SRA方法,通过将早期层高噪声条件下的潜在表征与后期层低噪声条件下的潜在表征对齐,实现自我表征引导,提升diffusiontransforme的训练速度和生成表现。实验验证:文章...
2025-05-08 09:26:26 707浏览 0点赞 0回复 0收藏
文章链接:​​https:arxiv.orgpdf2505.01172​​Git链接:https:github.comJosephTiTanFreePCA亮点直击首次揭示了PCA能够有效将视频特征解耦为一致的外观和运动强度特征,从而解决长视频生成中的不一致性和低质量问题。提出了一种技术,从整个视频序列的全局特征中提取主成分空间中的一致性特征,并逐步将其整合到通过滑动窗口获得的局部特征中,从而在保证视频质量的同时确保一致性。大量实验表明,本文的方法优于现有方法,...
2025-05-06 09:35:28 682浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2504.21650主页链接:https:zhouhyocean.github.ioholotime代码链接:https:github.comPKUYuanGroupHoloTime亮点直击全景动画生成器(PanoramicAnimator):提出两阶段运动引导生成策略,无缝转换全景图像为动态全景视频,在保留原始图像空间特征的同时支持下游4D重建任务。全景时空重建技术(PanoramicSpaceTimeReconstruction):通过前沿技术实现全景视频深度估计的时空对齐,利用4DGaussianSplatting...
2025-05-06 09:27:27 704浏览 0点赞 0回复 0收藏
文章地址:https:arxiv.orgabs2504.19724项目链接:https:reptext.github.ioGit链接:https:github.comShakkerLabsRepText亮点直击RepText,一个用于可控多语言视觉文本渲染的有效框架。创新性地引入了字形隐空间变量复制技术,以提高排版准确性并实现颜色控制。此外,采用区域掩码来保证良好的视觉保真度,避免背景干扰。定性实验表明,本方法优于现有开源方案,并与原生多语言闭源模型取得了可比的结果。总结速览解决的问题现...
2025-04-30 09:13:03 741浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2504.02828项目链接:https:peterljq.github.ioprojectcolanGit链接:https:github.competerljqConceptLancet亮点直击提出CoLan框架一个零样本即插即用的框架,用于在基于扩散的图像编辑中解释和操作稀疏概念表示。该框架可以精确控制概念移植的幅度,实现高质量的图像编辑。构建CoLan150K概念词典收集了包含多样化视觉概念的CoLan150K数据集,并计算对应的概念向量词典(文本嵌入或评分空间),为...
2025-04-28 09:49:49 1100浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2504.16915项目链接:https:mce.github.ioprojectDreamO亮点直击提出了DreamO,一个统一的图像定制框架。它通过在预训练的DiT模型上训练少量额外参数,实现了各种复杂和多条件的定制任务。基于扩散模型内部的表示对应关系,本文设计了一种特征路由约束,以增强一致性保真度,并在多条件场景中实现有效的解耦。引入了一种渐进式训练策略,以促进多任务和复杂任务设置的收敛。本文还设计了一种占位符...
2025-04-25 09:16:15 1347浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2504.15009开源地址:https:songwensong.github.ioinsertanything亮点直击发布了AnyInsertion数据集,这是一个包含120K提示图像对的大规模数据集,涵盖了广泛的插入任务,例如人物、物体和服装插入。提出了InsertAnything框架,这是一个统一框架,通过单一模型无缝处理多种插入任务(人物、物体和服装)。首个利用DiT(DiffusionTransformer)进行图像插入的研究,充分发挥了其在不同控制模式下的...
2025-04-24 09:51:06 1329浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2504.13074代码&模型链接:https:github.comSkyworkAISkyReelsV2SKyReelsV2生产惊人的现实和电影的高分辨率视频几乎无限长度亮点直击全面的视频标注器,既能理解镜头语言,又能捕捉视频的通用描述,从而显著提升提示词遵循能力。针对运动优化的偏好学习,通过半自动数据收集流程增强运动动态表现。高效的扩散强制适配,支持超长视频生成和故事叙述能力,为时序连贯性和叙事深度提供稳健框架。开源S...
2025-04-23 12:13:59 877浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2504.01724项目链接:https:grisoon.github.ioDreamActorM1亮点直击提出了一个整体的基于DiT的框架和一种渐进的训练策略,用于支持灵活多尺度合成的人像动画。设计了混合控制信号,结合了隐式面部表征、显式3D头部球体和身体骨架,以实现富有表现力的身体和面部动作合成,同时支持多样化的角色风格。开发了互补的外观引导,以缓解视频片段之间未见区域的信息差距,从而实现长时间段内的一致视频生...
2025-04-22 09:43:17 986浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2504.10483项目链接:https:end2enddiffusion.github.ioGit链接:https:github.comEnd2EndDiffusionREPAE模型链接:https:huggingface.coREPAE亮点直击端到端联合优化的突破首次实现VAE与扩散模型的端到端联合训练,通过REPALoss替代传统扩散损失,解决两阶段训练目标不一致问题,使隐空间与生成任务高度适配。训练效率革命性提升REPAE仅需传统方法145的训练步数即可收敛,且生成质量显著超越现有方...
2025-04-21 09:20:47 975浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2504.08736项目链接:https:silentview.github.ioGigaTok代码链接:https:github.comSilentViewGigaTok亮点直击分词器规模扩展中存在的重建与生成困境源于更大规模分词器隐空间复杂度的提升。本文提出语义正则化方法,有效缓解该困境从而实现分词器的规模扩展。探索了分词器规模扩展的最佳实践方案,包括:采用混合CNNTransformer架构的一维分词器、非对称编码器解码器扩展策略,以及针对十亿级分...
2025-04-18 09:56:15 1287浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2504.11346官方链接:https:team.doubao.comtechseedream30亮点直击相比Seedream2.0能力全面增强:在用户偏好测试中表现出色,在图文对齐、构图结构、美学质量和文字渲染等关键能力方面有重大突破。文本渲染性能提升显著:在中英文小尺寸字符生成和高美学长文本排版方面表现优异。小文本生成与美学排版难题的开创性方案,在图文设计输出上超越Canva等平台的人设模板。图像美学提升:图像美学质量显...
2025-04-17 09:43:46 2496浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2504.02782代码&数据集:https:github.comPicoTrexGPTImgEval亮点直击GPTImgEval,首个通过三个成熟基准(包括文本到图像生成、编辑和理解引导生成)定量和定性评估GPT4o图像生成能力的基准测试。全面结果突显了GPT4o在图像生成和理解能力上优于先前模型的卓越表现。基于测试结果深入分析,包括:(1)通过基于分类器的图像分析研究GPT4o的潜在底层架构;(2)对其弱点的系统性实证研究,包括常见...
2025-04-16 10:29:04 1778浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2410.18775Git链接:https:github.comShilinLUVINE亮点直击提出了WBench,这是首个综合性基准测试,旨在评估11种代表性水印模型在多种图像编辑方法下的表现:图像再生、全局编辑、局部编辑和图像到视频生成。该评估涵盖了7种广泛使用的编辑模型和算法,并表明当前的水印模型在面对这些编辑时表现脆弱。图像编辑主要会去除高频波段的水印信息,而低频波段的水印受影响较小。这一现象在某些模糊失真...
2025-04-15 09:38:42 1563浏览 0点赞 0回复 0收藏
获得成就
已积累 21.3w 人气
获得 2 个点赞
获得 7 次收藏