伊利诺伊大学香槟分校提出的InstantEdit是一个只需几步即可完成的图像编辑框架,能够高效精准地进行文本引导的图像编辑。该方法基于分段修正流模型,只需几步即可实现精准编辑。主要功能包括:免训练:无需微调。开箱即用,可立即编辑。精确控制:与同类的几步编辑方法相比,在保持图像一致性的同时实现了更好的可编辑性。多功能应用:支持各种编辑任务,包括对象操作、样式转换和属性修改下图为InstantEdit的示例,仅需4个步骤...
2025-09-05 00:13:18 709浏览 0点赞 0回复 0收藏
SeedDiffusionPreview是字节跳动种子团队推出的文本扩散语言模型,旨在验证离散扩散方法作为下一代语言模型基础框架的可行性,以结构化代码生成为实验领域。团队引入两阶段扩散训练、约束序学习等多项关键技术,经实验验证有效。结果显示,该模型代码推理速度达2146个tokens,较同等规模自回归模型提升5.4倍,且在多个核心代码基准测试中性能相当,在推理速度、生成质量上建立新的SOTA,有力证明了方法的有效性。相关链接博客:s...
2025-09-05 00:10:41 1488浏览 0点赞 0回复 0收藏
由高德、北大联合推出的统一框架OmniEffects创新性地采用LoRAMoE混合专家架构,将多种特效无缝集成至统一模型,有效规避了跨任务干扰;同时通过空间感知提示SAP与独立信息流模块的协同作用,实现了对特效空间位置的精准把控,防止了控制信号的混杂。此外还精心构建了OmniVFX数据集与专用评估框架,为框架的性能验证提供了坚实支撑。实验结果显示,OmniEffects能精准控制特效位置,并生成丰富多样的特效,为电影特效制作带来了革...
2025-09-05 00:09:19 771浏览 0点赞 0回复 0收藏
在虚拟试穿(VTON)领域,现有研究多聚焦于服装,这在一定程度上限制了其应用范围。浙江大学团队提出了一个统一框架OmniTry,该框架将VTON的应用范畴拓展至服装之外的各类可穿戴物品,像珠宝、配饰等,还提供无蒙版设置以贴合实际应用场景。面对扩展物品类型时数据管理获取配对图像的难题,团队设计了独特的两阶段流程,巧妙利用大规模未配对图像和少量配对图像训练微调模型。经基于综合基准的评估,OmniTry在物体定位和身份保...
2025-08-26 07:26:29 1032浏览 0点赞 0回复 0收藏
2025年8月21日,DeepSeekV3.1正式发布。它采用混合推理架构,一个模型支持思考与非思考两种模式。相比前代,DeepSeekV3.1Think思考效率大幅提升,能更快作答。经PostTraining优化,其Agent能力增强,工具使用和智能体任务表现更出色。官方App与网页端同步升级,用户用“深度思考”按钮就能切换模式。DeepSeekAPI也同步更新,deepseekchat和deepseekreasoner对应不同模式,上下文扩至128K,还支持strict模式FunctionCalling。Dee...
2025-08-26 07:23:03 7513浏览 0点赞 0回复 0收藏
GroundingBooth是一个用于文本到图像的接地定制框架。首先提取文本描述和图像的特征,然后通过一种特殊的注意力机制来控制这些特征的结合。这个机制就像是一个精密的筛子,确保每个对象和背景之间的信息不会混淆。比如,如果你想要在一个特定的地方放一个玩具和一棵树,系统会确保玩具和树都被放在你指定的位置,而不会因为背景的干扰而位置错乱。这样,用户就可以得到既符合要求又美观的定制图像。GroundingBooth支持:(a)接地...
2025-08-13 06:48:13 781浏览 0点赞 0回复 0收藏
本研究针对单幅图像的6D物体姿态估计任务,提出了一种无需已知物体姿态的快速准确估计流程。首先利用单视图3D生成技术构建高保真纹理网格,通过由粗到精的对齐模块解决尺度模糊问题,结合2D3D特征与深度信息实现初始姿态估计。为解决数据稀缺问题,引入文本引导的生成式增强技术生成多样化3D模型,并通过Blender渲染合成大规模领域随机化训练数据,显著提升模型泛化能力。实验表明,该方法在多个基准测试中取得最优性能,并在新...
2025-08-13 06:41:30 1648浏览 0点赞 0回复 0收藏
在ICML25上,快手、上交联合提出统一多模态生成理解模型Orthus——基于自回归Transformer的无损图文交错生成新范式。Orthus不仅在多个视觉理解指标上超越了Chameleon和Showo等竞争模型,还在图像编辑、图文交错生成等任务上展现了强大的能力。目前代码已开源。Orthus是一个统一的多模态模型,在AR建模原则下处理离散文本标记和无损连续图像特征。与现有技术不同,Orthus首次同时享有以下三大优势:单个变压器内AR和扩散的统一建...
2025-08-13 06:34:09 3106浏览 0点赞 0回复 0收藏
由北京人工智能研究院提出的OmniGen2是一个统一的多模态生成模型,它将强大的视觉理解、文本到图像的合成、基于指令的图像编辑以及主题驱动的上下文生成功能整合在一个框架内。它基于解耦架构,在保留高质量语言模型的同时,实现了细粒度且一致的视觉输出。除了生成功能之外,OmniGen2还集成了多模态反射机制,使其能够分析、评估并迭代优化其输出,从而将推理和自我修正功能引入图像生成过程。凭借在生成和理解任务中均表现出...
2025-07-28 01:19:03 3978浏览 0点赞 0回复 0收藏
由约翰霍普金斯大学、字节跳动,斯坦福大学、香港中文大学联合提出的CaptainCinema旨在创作具有专业电影级品质的多场景电影,同时通过超长上下文记忆保持角色和场景的一致性。你可以成为导演,用您的想法、场景和角色重新制作任何电影。创建你自己的宇宙CaptainCinema可以将故事线分支成截然不同的路径,每条路径都保持着内在的一致性,同时又能探索不同的创意想象。这部电影短片讲述了布鲁斯·韦恩、小丑和阿尔弗雷德·潘尼沃...
2025-07-28 01:03:20 2703浏览 0点赞 0回复 0收藏
由南洋理工大学推出Sparc3D是一个统一的框架,它将稀疏可变形行进立方体表示Sparcubes与新型编码器SparconvVAE相结合。Sparcubes通过将有符号距离和变形场散射到稀疏立方体上,将原始网格转换为具有任意拓扑的高分辨率(1024³)表面,从而实现可微分优化。SparconvVAE是第一个完全基于稀疏卷积网络构建的模态一致性变分自编码器,能够通过潜在扩散实现高效且近乎无损的三维重建,适用于高分辨率生成建模。相关链接论文:https:ar...
2025-07-08 06:23:27 4115浏览 0点赞 0回复 0收藏
迄今为止,所有功能强大的生成式图像编辑模型都只能作为专有工具使用。如今,黑森林实验室发布了FLUX.1Kontext[dev],这是FLUX.1Kontext[pro]的开发者版本,它在一个120亿参数的模型中提供专有级别的图像编辑性能,并且可在消费级硬件上运行。开放模型权重是技术创新的基石。FLUX.1Kontext[dev]现已作为开放权重模型在FLUX.1非商业许可证下发布,可供研究和非商业用途免费使用。FLUX.1Kontext[dev]与现有的FLUX.1[dev]推理代码...
2025-07-08 06:21:45 4454浏览 0点赞 0回复 0收藏
ShareGPT4oImage是一个大规模、高质量的图像生成数据集,其中所有图像均由GPT4o的图像生成功能生成。该数据集旨在将开放式多模态模型与GPT4o在视觉内容创作方面的优势相结合。它包含45,000个文本转图像和46,000个文本转图像样本,使其成为增强多模态模型在图像生成和编辑任务中的实用资源。Janus4o是一款多模态LLM,能够进行文本转图像和文本+图像转图像的生成。它基于JanusPro,使用ShareGPT4oImage数据集进行微调。与JanusPro...
2025-07-07 07:50:32 1681浏览 0点赞 0回复 0收藏
腾讯提出了一个多模态定制视频生成框架HunyuanCustom,该框架强调主题一致性,同时支持图像、音频、视频和文本条件。基于HunyuanVideo,该模型首先通过引入基于LLaVA的文本图像融合模块来增强多模态理解,以及利用时间连接来增强跨帧身份特征的图像ID增强模块,从而解决了图像文本条件生成任务。单主题视频定制一致性故事生成与最先进的方法的比较多主题视频定制多主题定制音频驱动的视频定制HunyuanCustom首次实现了音频驱动的...
2025-06-23 09:48:56 1101浏览 0点赞 0回复 0收藏
字节跳动的智能创作团队提出了一个从单一主题发展到多主题定制的通用框架UNO,从少到多的泛化:通过情境生成释放更多可控性。能够将不同的任务统一在一个模型下。在单主题和多主题驱动的生成中都能实现高度一致性,同时确保可控性。举一个例子:上传一张人物,一身衣服,一个包,UNO就可以生成这个人穿着衣服拿着包的效果图,效果看起来很真实!相关链接论文:https:arxiv.orgabs2504.02160主页:https:bytedance.github.ioUNO...
2025-06-10 07:22:12 992浏览 0点赞 0回复 0收藏
由香港科技大学、快手科技提出的UNIC(统一上下文视频编辑)是一个简单而有效的框架,它以上下文的方式统一单个模型中的各种视频编辑任务。从此,视频编辑用着一个工具就够了!ID插入ID交换删除ID相机控制风格化第一帧传播紧急任务组合UNIC还表现出了新兴任务组合能力。重新拍摄+风格化ID+风格化相关链接论文:https:arxiv.orgpdf2506.04216主页:https:zixuanye.github.ioUNIC论文介绍UNIC:框架和设计动机基于DDIM反转的方法...
2025-06-10 07:19:38 1439浏览 0点赞 0回复 0收藏
在虚拟形象与数字内容需求激增的当下,传统3D数字人制作的高昂成本(动辄数十万美元)与复杂流程,让许多行业望而却步。而今天,一款由Duix.com团队打造的开源AI项目HeyGem,正以颠覆性技术打破这一壁垒,重新定义数字人创作范式。开发者可基于其框架二次开发,拓展更多应用场景(如医疗问诊、虚拟偶像等)。随着社区贡献者的加入,这一项目有望成为数字人领域的“Android系统”,推动整个行业向低成本、高效率、普惠化方向发展...
2025-05-28 06:28:19 6272浏览 0点赞 0回复 0收藏
慕尼黑工业大学和伦敦大学学院提出了一款经过微调的DINOViT模型Pixel3DMM,用于逐像素表面法线和UV坐标预测。从上到下,下图展示了FFHQ输入图像、估计的表面法线、根据预测的UV坐标估计的二维顶点,以及针对上述两个线索的FLAME拟合结果。图片使用Pixel3DMM进行野外追踪。从左到右:输入、预测法线、预测二维顶点、跟踪覆盖、FLAME跟踪。单幅图像重建给定一个输入图像(右上),下图展示了DECA、FlowFace和Ours相对于地面真实CO...
2025-05-14 07:00:35 1698浏览 0点赞 0回复 0收藏
Phantom是一个统一的视频生成框架,适用于单主题和多主题参考,基于现有的文本转视频和图像转视频架构构建。它通过重新设计联合文本图像注入模型,利用文本图像视频三元组数据实现跨模态对齐。此外,它在人物生成中强调主题一致性,同时增强了身份保留视频生成。相关链接论文:https:arxiv.orgabs2502.11079代码:https:github.comPhantomvideoPhantom主页:https:phantomvideo.github.ioPhantomComfyUI:https:github.comkijaiC...
2025-04-28 00:29:10 1577浏览 0点赞 0回复 0收藏
2025年4月14日,中国AI领军企业智谱AI正式推出GLM432B0414系列大模型,以32B参数量实现全方位能力跃升。该系列创新性融合对话、推理、沉思等多元智能模块,在基准测试中展现出与GPT4o、DeepSeekV3R1等国际顶尖模型比肩的综合性能。尤为关键的是,智谱此次以MIT开源协议向全球开放模型权重,结合其突出的本地化部署优势,真正实现了"高性能"与"普惠性"的双重突破。作为"大模型六小虎"中IPO进程最快的企业,智谱此番动作既彰显了...
2025-04-17 06:52:43 3155浏览 0点赞 0回复 0收藏