zhangyannni
LV.6
这个用户很懒,还没有个人简介
声望 1050
关注 0
粉丝 0
私信
主帖 110
回帖
文章链接:https:arxiv.orgabs2510.11000项目主页:https:nenhang.github.ioContextGen【导语】AI作图正在从“自由创作”走向“精确工程”。面对商业应用中对多主体身份一致性和空间布局的客制化要求,现有的Diffusion模型仍有不足。浙江大学ReLER团队提出了ContextGen,这一创新框架通过整合布局锚定和身份注意力两大机制,显著提升了模型在复杂多实例生成(MIG)任务上的可靠性和保真度。亮点直击ContextGen框架:创新性采用基...
10h前 74浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2510.09012Git链接:https:github.comkrennic999ARsample图1:顶行:我们的方法生成的图像具有更精细的细节和更好的结构。下一行:我们的方法结合现有的加速方法,我们方法将推理成本降低了15%。(左侧两对来自LlamaGen;右侧来自LuminamGPT。推理步骤和延迟均已报告)。亮点直击受图像信息稀疏且分布不均的现象启发,而这种特性可通过token的熵反映,本文提出了一种面向自回归(AR)图像生成的熵驱...
1天前 427浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2510.08485​项目链接:https:mce.github.ioprojectInstructXGit链接:https:github.comMCEInstructXtabreadmeovfileInstructX的案例。在图像和视频编辑方面的最先进性能。亮点直击InstructX,一个在单模型中执行图像和视频编辑的统一框架。研究分析了MLLM与扩散模型的集成,并为未来的研究提供了新的见解。讨论了一种简单而有效的方法,通过图像训练数据扩展零样本视频编辑能力。该设计使Instruct...
3天前 1217浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2510.08555项目链接:https:onevfall.github.ioprojectpagevideocanvasGit链接:https:onevfall.github.ioprojectpagevideocanvas亮点直击引入并形式化了任意时空视频补全任务,这是一个统一的框架,涵盖了广泛的可控视频生成场景。VideoCanvas,第一个将InContextConditioning范式应用于任意时空补全任务的框架。进一步引入混合条件策略:SpatialZeroPadding和TemporalRoPEInterpolation。该方法...
5天前 1210浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2510.05580项目链接:https:stellarneuron.github.iometavla亮点直击探索了一个尚未充分研究的方向:通过引入多样的辅助任务,以可忽略的优化开销提升后训练阶段的效率与泛化能力。MetaVLA,一套可插拔的模块与训练方案,能够实现快速且可扩展的适应性训练,并具备强泛化能力。MetaVLA工程实现友好,对主干架构和底层训练流程均保持无关性。全面实验表明,MetaVLA在显著提高效率的同时提供了更优的...
6天前 1297浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2510.05094​项目链接:https:eyelinelabs.github.ioVChaingit链接:https:github.comEyelineLabsVChain亮点直击VChain,一种利用多模态大模型的视觉思维链(chainofvisualthought)来将高层推理引入视频生成的新框架。设计了视觉思维推理(VisualThoughtReasoning)流程,这是一个由GPT引导的流程,用于合成稀疏且具有因果基础的关键帧,以指导视频生成。大量实验表明,在这些关键帧上进行稀疏监...
7天前 2928浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2510.04201Git链接:https:github.commhsonkyleWorldToImage效果展示亮点直击智能体式优化框架。提出了一种诊断与选择智能体,它在语义分解、概念替换和基于网页证据的多模态对齐之间进行选择。面向T2I的世界知识注入。将提示词优化扩展到文本之外,通过整合图像检索与条件生成来处理新概念,在无需重新训练的情况下实现语义保真度SOTA。总结速览解决的问题T2I模型的知识时效性问题:由于预训练数...
7天前 1688浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2509.15496Git链接:https:byteaigc.github.ioLynx亮点直击介绍了Lynx,一个高保真的个性化视频生成框架,旨在从单个输入图像中保留身份。Lynx采用基于适配器的设计,具有两个专用组件:IDadapter和Refadapter。IDadapter利用交叉注意力从单个面部图像中注入提取的身份特征。具体来说,面部嵌入使用面部识别模型获得,并通过感知器重采样器转换为一组紧凑的身份token,从而实现丰富且高效的表示学...
2025-09-30 08:59:21 2285浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2509.21318第一印象:4步模型中的高保真样本亮点直击稳定高效的少步蒸馏算法(“时间步共享”):该创新从根本上解决了少步蒸馏中梯度噪声大、训练不稳定的核心难题,通过利用轨迹中的真实样本点,确保了流预测的可靠性,从而在极少的步骤下(如4步)仍能生成高质量图像。突破容量限制的训练策略(“分时间步微调”):该策略巧妙地化解了少步模型中“美学质量”与“语义保真度”之间的内在矛盾。...
2025-09-29 09:25:08 1867浏览 0点赞 0回复 0收藏
在五一假期期间,HuggingFace上出现了一款爆火的图像编辑模型,号称用一个LoRA就可以实现像GPT4o一样的图像编辑功能。该项目不仅冲上了HuggingFace周榜第二名,仅次于Qwen3;还在外网社交媒体上火出圈,用户纷纷秀出使用体验,之前AI生成未来也和大家分享过:而就在最近,该工作已被NeurIPS2025正式接收!这个模型就是由浙大和哈佛团队提出的一种新型图像编辑方法ICEdit,仅需要以往模型0.1%的训练数据(50k)以及1%的训练参数...
2025-09-28 09:03:52 2394浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2509.19244亮点直击第一个多模态MDM,在文本生成图像、图像编辑和定位任务中实现了SOTA性能,超越了现有的MDMs、自回归模型和连续扩散模型。为大规模掩码图像生成模型和统一多模态模型提出了若干高效且有效的训练和推理技术,如ElasticMoT架构、通用文本条件和分层采样,显著推动了相关领域的发展。引入了一种新范式,明确利用统一模型的理解能力,通过规划和自我反思来改进其生成能力。总结速览效...
2025-09-26 09:41:56 2524浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2509.18824项目链接:https:hyperbagel.github.io经过6NFE加速的BAGEL模型生成的图像生成样例经过6NFE加速的BAGEL模型生成的图像编辑样例亮点直击HyperBagel,一个统一的加速框架,旨在同时提升多模态理解和生成任务的速度。方法采用分治策略,利用推测解码进行下一token预测,并采用多阶段蒸馏过程进行扩散去噪,确保一个领域的加速不会影响另一个领域。该框架带来了显著的性能提升,在多模态理解...
2025-09-25 08:52:29 2019浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2509.16117Git链接:https:research.nvidia.comlabsdirDiffusionNFTDiffusionNFT的性能。(a)在GenEval任务上与FlowGRPO的头对头比较。(b)通过采用多种奖励模型,DiffusionNFT显著提高了SD3.5Medium在每个测试基准测试中的性能,同时完全无需CFG亮点直击一种新的在线强化学习(RL)范式:扩散负面感知微调(DiffusionNFT)。DiffusionNFT并不基于策略梯度框架,而是通过流匹配目标直接在前向扩...
2025-09-24 09:43:56 1794浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2509.16197文本到图像的生成定性分析定量分析亮点直击hybridtokenizer设计巧妙:通过共享编码器+双适配器结构,在一个语义空间中同时支持连续和离散表征,显著缓解了理解与生成之间的任务冲突。统一且可扩展的训练配方:三阶段训练策略有效整合多样数据,支持模型同时学习理解和生成,并具备良好的扩展性。强竞争力与扩展性:小模型(3B)即可达到SOTA,scaling实验表明模型能力随参数增加持续提升...
2025-09-23 09:33:11 2678浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2509.07472主页:https:gaowenshuo.github.ioAnyPortalGit链接:https:github.comgaowenshuoAnyPortalCode图1.ANYPORTAL,这是一个用于高一致性视频背景替换和前景重新照明的免训练框架。给定输入的前景视频和背景的文本或图像提示,本方法在和谐的光照下生成具有目标背景的视频,同时保持前景视频细节和内在属性亮点直击AnyPortal,一个高效且无需训练的视频背景替换框架。设计了一个模块化流程,...
2025-09-22 09:21:33 2823浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2509.12883Git链接:https:github.comxiaomiresearchlegoedit图1编辑效果展示亮点直击LegoEdit,这是一种基于指令的图像编辑框架,利用经过强化学习微调的MLLMagent来协调模型级编辑工具,以执行灵活的现实世界指令。引入了一种三阶段渐进式强化学习训练策略,利用无标签数据提供反馈,显著增强了MLLM的推理和工具组合能力。大量实验表明,LegoEdit在GEditBench和ImgBench上达到了SOTA性能。该框架...
2025-09-19 08:23:03 1226浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgabs2509.01232项目地址:https:fantasyamap.github.iofantasyhsi亮点直击设计了一种新颖的HSI框架,以视频生成和无配对数据的多智能体系统为中心,将复杂的交互过程建模为一个动态有向图,在此基础上构建了一个协作的多智能体系统。多智能体系统包括一个用于环境感知和高级路径规划的场景导航智能体,一个将远景目标分解为原子动作的规划智能体,和一个批评智能体,通过评估生成的动作与计划路径之间...
2025-09-18 09:16:55 2505浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2509.10441亮点直击新范式。引入了一种在任意分辨率下生成图像的新范式。基于生成隐空间变量的二次生成是一个未被探索的领域。即插即用。生成器可以作为插件用于升级所有基于VAE的模型,无需进一步训练,在提升现有生成模型的任意分辨率能力方面显示出显著改进。高质量且快速。与现有的SOTA方法相比,所提出的方法不仅实现了顶级的生成质量,还将生成速度提高了十倍以上。总结速览解决的问题当前的...
2025-09-17 09:42:29 1657浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2509.09263Git链接:https:github.comyuanc3DATE亮点直击提出了时间戳注入机制(TimestampInjectionMechanism,TIM),该机制无需修改模型权重或进行额外训练,即可实现显式的绝对时间建模。提出了时间感知相似性采样算法(TemporallyAwareSimilaritySampling,TASS),这是一种结合语义引导字幕生成的时间正则化贪婪采样方法,能够在保持视频连贯性的同时,平衡关键事件的采样。本方法在空间感知和...
2025-09-16 09:17:06 1459浏览 0点赞 0回复 0收藏
论文链接:​​https:arxiv.orgpdf2509.09680​​模型链接:​​https:github.comrongyaofangprismbench​​Dataset链接:​​https:huggingface.codatasetsLucasFangFLUXReason6M​​​Git链接:​​​https:fluxreason6m.github.io​​亮点直击FLUXReason6M:一个里程碑式的数据集。首个专为推理设计的600万规模T2I数据集,包含2000万条双语描述,首创的生成式“思维链”提示。该数据集使用128张A100显卡,历时4个月构建,旨...
2025-09-15 09:20:13 1668浏览 0点赞 0回复 0收藏
获得成就
已积累 6.5w 人气
获得 0 个点赞
获得 2 次收藏