公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

AIGCStudio

LV.3

关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等

帖子 24

声望 201

关注 0

粉丝 0

社区头条作者热门内容榜上榜作者

私信

关注

主帖 24

回帖

手动PS时代结束! 伊利诺伊大学香槟分校推出 InstantEdit，只需4步即可搞定文本引导图像编辑，代码已开源

伊利诺伊大学香槟分校提出的InstantEdit是一个只需几步即可完成的图像编辑框架，能够高效精准地进行文本引导的图像编辑。该方法基于分段修正流模型，只需几步即可实现精准编辑。主要功能包括：免训练：无需微调。开箱即用，可立即编辑。精确控制：与同类的几步编辑方法相比，在保持图像一致性的同时实现了更好的可编辑性。多功能应用：支持各种编辑任务，包括对象操作、样式转换和属性修改下图为InstantEdit的示例，仅需4个步骤...

2025-09-05 00:13:18 709浏览 0点赞 0回复 0收藏

文本Diffusion模型来了！字节Seed Diffusion Preview专用于代码生成，每秒可推理2146个token

SeedDiffusionPreview是字节跳动种子团队推出的文本扩散语言模型，旨在验证离散扩散方法作为下一代语言模型基础框架的可行性，以结构化代码生成为实验领域。团队引入两阶段扩散训练、约束序学习等多项关键技术，经实验验证有效。结果显示，该模型代码推理速度达2146个tokens，较同等规模自回归模型提升5.4倍，且在多个核心代码基准测试中性能相当，在推理速度、生成质量上建立新的SOTA，有力证明了方法的有效性。相关链接博客:s...

2025-09-05 00:10:41 1488浏览 0点赞 0回复 0收藏

电影特效革命性升级！高德&北大联合发布Omni-Effects：LoRA-MoE架构突破，精准掌控电影特效空间艺术！

由高德、北大联合推出的统一框架OmniEffects创新性地采用LoRAMoE混合专家架构，将多种特效无缝集成至统一模型，有效规避了跨任务干扰；同时通过空间感知提示SAP与独立信息流模块的协同作用，实现了对特效空间位置的精准把控，防止了控制信号的混杂。此外还精心构建了OmniVFX数据集与专用评估框架，为框架的性能验证提供了坚实支撑。实验结果显示，OmniEffects能精准控制特效位置，并生成丰富多样的特效，为电影特效制作带来了革...

2025-09-05 00:09:19 771浏览 0点赞 0回复 0收藏

浙大重磅推出统一虚拟试穿框架OmniTry：突破服装局限，实现多品类可穿戴物品虚拟试穿无蒙版新跨越

在虚拟试穿（VTON）领域，现有研究多聚焦于服装，这在一定程度上限制了其应用范围。浙江大学团队提出了一个统一框架OmniTry，该框架将VTON的应用范畴拓展至服装之外的各类可穿戴物品，像珠宝、配饰等，还提供无蒙版设置以贴合实际应用场景。面对扩展物品类型时数据管理获取配对图像的难题，团队设计了独特的两阶段流程，巧妙利用大规模未配对图像和少量配对图像训练微调模型。经基于综合基准的评估，OmniTry在物体定位和身份保...

2025-08-26 07:26:29 1032浏览 0点赞 0回复 0收藏

迈向 Agent 时代的第一步！DeepSeek-V3.1 重磅发布，多维度升级超惊艳，开启智能推理新体验

社区头条

2025年8月21日，DeepSeekV3.1正式发布。它采用混合推理架构，一个模型支持思考与非思考两种模式。相比前代，DeepSeekV3.1Think思考效率大幅提升，能更快作答。经PostTraining优化，其Agent能力增强，工具使用和智能体任务表现更出色。官方App与网页端同步升级，用户用“深度思考”按钮就能切换模式。DeepSeekAPI也同步更新，deepseekchat和deepseekreasoner对应不同模式，上下文扩至128K，还支持strict模式FunctionCalling。Dee...

2025-08-26 07:23:03 7513浏览 0点赞 0回复 0收藏

GroundingBooth：一个用于文本到图像的定制框架，支持多主题和文本联合接地定制！

GroundingBooth是一个用于文本到图像的接地定制框架。首先提取文本描述和图像的特征，然后通过一种特殊的注意力机制来控制这些特征的结合。这个机制就像是一个精密的筛子，确保每个对象和背景之间的信息不会混淆。比如，如果你想要在一个特定的地方放一个玩具和一棵树，系统会确保玩具和树都被放在你指定的位置，而不会因为背景的干扰而位置错乱。这样，用户就可以得到既符合要求又美观的定制图像。GroundingBooth支持：(a)接地...

2025-08-13 06:48:13 781浏览 0点赞 0回复 0收藏

单图6D姿态估计新突破！OnePoseViaGen: 一个视频即可6D位姿估计，助力6D姿态估计迈向真实机器人应用

本研究针对单幅图像的6D物体姿态估计任务，提出了一种无需已知物体姿态的快速准确估计流程。首先利用单视图3D生成技术构建高保真纹理网格，通过由粗到精的对齐模块解决尺度模糊问题，结合2D3D特征与深度信息实现初始姿态估计。为解决数据稀缺问题，引入文本引导的生成式增强技术生成多样化3D模型，并通过Blender渲染合成大规模领域随机化训练数据，显著提升模型泛化能力。实验表明，该方法在多个基准测试中取得最优性能，并在新...

2025-08-13 06:41:30 1648浏览 0点赞 0回复 0收藏

ICML 2025 | 快手&上交提出统一多模态生成理解模型Orthus：多模态理解/图像编辑/图文交织生成一键搞定

社区头条

在ICML25上，快手、上交联合提出统一多模态生成理解模型Orthus——基于自回归Transformer的无损图文交错生成新范式。Orthus不仅在多个视觉理解指标上超越了Chameleon和Showo等竞争模型，还在图像编辑、图文交错生成等任务上展现了强大的能力。目前代码已开源。Orthus是一个统一的多模态模型，在AR建模原则下处理离散文本标记和无损连续图像特征。与现有技术不同，Orthus首次同时享有以下三大优势：单个变压器内AR和扩散的统一建...

2025-08-13 06:34:09 3106浏览 0点赞 0回复 0收藏

开源多模态生成模型新标杆！OmniGen2：支持视觉理解、文生图、图像编辑等任务，探索高级多模态生成！

由北京人工智能研究院提出的OmniGen2是一个统一的多模态生成模型，它将强大的视觉理解、文本到图像的合成、基于指令的图像编辑以及主题驱动的上下文生成功能整合在一个框架内。它基于解耦架构，在保留高质量语言模型的同时，实现了细粒度且一致的视觉输出。除了生成功能之外，OmniGen2还集成了多模态反射机制，使其能够分析、评估并迭代优化其输出，从而将推理和自我修正功能引入图像生成过程。凭借在生成和理解任务中均表现出...

2025-07-28 01:19:03 3978浏览 0点赞 0回复 0收藏

AI生成电影新革命！字节&港中文等提出Captain Cinema，当「无限记忆」打破〈盗梦空间〉的第四面墙

由约翰霍普金斯大学、字节跳动，斯坦福大学、香港中文大学联合提出的CaptainCinema旨在创作具有专业电影级品质的多场景电影，同时通过超长上下文记忆保持角色和场景的一致性。你可以成为导演，用您的想法、场景和角色重新制作任何电影。创建你自己的宇宙CaptainCinema可以将故事线分支成截然不同的路径，每条路径都保持着内在的一致性，同时又能探索不同的创意想象。这部电影短片讲述了布鲁斯·韦恩、小丑和阿尔弗雷德·潘尼沃...

2025-07-28 01:03:20 2703浏览 0点赞 0回复 0收藏

南洋理工力作Sparc3D：开启三维重建可微分优化与高效生成新纪元

社区头条

由南洋理工大学推出Sparc3D是一个统一的框架，它将稀疏可变形行进立方体表示Sparcubes与新型编码器SparconvVAE相结合。Sparcubes通过将有符号距离和变形场散射到稀疏立方体上，将原始网格转换为具有任意拓扑的高分辨率(1024³)表面，从而实现可微分优化。SparconvVAE是第一个完全基于稀疏卷积网络构建的模态一致性变分自编码器，能够通过潜在扩散实现高效且近乎无损的三维重建，适用于高分辨率生成建模。相关链接论文：https:ar...

2025-07-08 06:23:27 4115浏览 0点赞 0回复 0收藏

重磅！黑森林实验室开放 FLUX.1 Kontext [dev]权重，120 亿参数黑科技，重塑图像编辑格局！

迄今为止，所有功能强大的生成式图像编辑模型都只能作为专有工具使用。如今，黑森林实验室发布了FLUX.1Kontext[dev]，这是FLUX.1Kontext[pro]的开发者版本，它在一个120亿参数的模型中提供专有级别的图像编辑性能，并且可在消费级硬件上运行。开放模型权重是技术创新的基石。FLUX.1Kontext[dev]现已作为开放权重模型在FLUX.1非商业许可证下发布，可供研究和非商业用途免费使用。FLUX.1Kontext[dev]与现有的FLUX.1[dev]推理代码...

2025-07-08 06:21:45 4454浏览 0点赞 0回复 0收藏

多模态图像生成新宠 Janus-4o？ShareGPT-4o-Image 打造数据集新标杆，将图像生成与 GPT-4o 对齐

ShareGPT4oImage是一个大规模、高质量的图像生成数据集，其中所有图像均由GPT4o的图像生成功能生成。该数据集旨在将开放式多模态模型与GPT4o在视觉内容创作方面的优势相结合。它包含45,000个文本转图像和46,000个文本转图像样本，使其成为增强多模态模型在图像生成和编辑任务中的实用资源。Janus4o是一款多模态LLM，能够进行文本转图像和文本+图像转图像的生成。它基于JanusPro，使用ShareGPT4oImage数据集进行微调。与JanusPro...

2025-07-07 07:50:32 1681浏览 0点赞 0回复 0收藏

碾压开源与商业模型！腾讯开源一致性视频生成框架HunyuanCustom：可同时实现音频同步与视频编辑！

腾讯提出了一个多模态定制视频生成框架HunyuanCustom，该框架强调主题一致性，同时支持图像、音频、视频和文本条件。基于HunyuanVideo，该模型首先通过引入基于LLaVA的文本图像融合模块来增强多模态理解，以及利用时间连接来增强跨帧身份特征的图像ID增强模块，从而解决了图像文本条件生成任务。单主题视频定制一致性故事生成与最先进的方法的比较多主题视频定制多主题定制音频驱动的视频定制HunyuanCustom首次实现了音频驱动的...

2025-06-23 09:48:56 1101浏览 0点赞 0回复 0收藏

字节提出从单一主题发展到多主题定制的通用框架UNO，通过情境生成释放更多可控性

字节跳动的智能创作团队提出了一个从单一主题发展到多主题定制的通用框架UNO，从少到多的泛化：通过情境生成释放更多可控性。能够将不同的任务统一在一个模型下。在单主题和多主题驱动的生成中都能实现高度一致性，同时确保可控性。举一个例子：上传一张人物，一身衣服，一个包，UNO就可以生成这个人穿着衣服拿着包的效果图，效果看起来很真实！相关链接论文：https:arxiv.orgabs2504.02160主页：https:bytedance.github.ioUNO...

2025-06-10 07:22:12 992浏览 0点赞 0回复 0收藏

港科大&快手提出统一上下文视频编辑框架 UNIC，各种视频编辑任务一网打尽，还可进行多项任务组合！

社区头条

由香港科技大学、快手科技提出的UNIC（统一上下文视频编辑）是一个简单而有效的框架，它以上下文的方式统一单个模型中的各种视频编辑任务。从此，视频编辑用着一个工具就够了！ID插入ID交换删除ID相机控制风格化第一帧传播紧急任务组合UNIC还表现出了新兴任务组合能力。重新拍摄+风格化ID+风格化相关链接论文：https:arxiv.orgpdf2506.04216主页：https:zixuanye.github.ioUNIC论文介绍UNIC：框架和设计动机基于DDIM反转的方法...

2025-06-10 07:19:38 1439浏览 0点赞 0回复 0收藏

开源数字人克隆神器HeyGem：1秒视频生成4K超高清AI形象，用AI重塑数字人创作生态！

在虚拟形象与数字内容需求激增的当下，传统3D数字人制作的高昂成本（动辄数十万美元）与复杂流程，让许多行业望而却步。而今天，一款由Duix.com团队打造的开源AI项目HeyGem，正以颠覆性技术打破这一壁垒，重新定义数字人创作范式。开发者可基于其框架二次开发，拓展更多应用场景（如医疗问诊、虚拟偶像等）。随着社区贡献者的加入，这一项目有望成为数字人领域的“Android系统”，推动整个行业向低成本、高效率、普惠化方向发展...

2025-05-28 06:28:19 6272浏览 0点赞 0回复 0收藏

3D人脸黑科技！Pixel3DMM：单张RGB图像秒变3D人脸，姿势表情精准还原，几何精度碾压竞品15%！

慕尼黑工业大学和伦敦大学学院提出了一款经过微调的DINOViT模型Pixel3DMM，用于逐像素表面法线和UV坐标预测。从上到下，下图展示了FFHQ输入图像、估计的表面法线、根据预测的UV坐标估计的二维顶点，以及针对上述两个线索的FLAME拟合结果。图片使用Pixel3DMM进行野外追踪。从左到右：输入、预测法线、预测二维顶点、跟踪覆盖、FLAME跟踪。单幅图像重建给定一个输入图像（右上），下图展示了DECA、FlowFace和Ours相对于地面真实CO...

2025-05-14 07:00:35 1698浏览 0点赞 0回复 0收藏

AI视频生成新突破！字节提出一致性视频生成方法Phantom：通过跨模态对齐生成主题一致的视频，超多应用场景

Phantom是一个统一的视频生成框架，适用于单主题和多主题参考，基于现有的文本转视频和图像转视频架构构建。它通过重新设计联合文本图像注入模型，利用文本图像视频三元组数据实现跨模态对齐。此外，它在人物生成中强调主题一致性，同时增强了身份保留视频生成。相关链接论文：https:arxiv.orgabs2502.11079代码：https:github.comPhantomvideoPhantom主页：https:phantomvideo.github.ioPhantomComfyUI:https:github.comkijaiC...

2025-04-28 00:29:10 1577浏览 0点赞 0回复 0收藏

国产大模型崛起！智谱发布GLM-4-32B-0414系列模型，以32B模型参数比肩GPT-4o和DeepSeek V3/R1

2025年4月14日，中国AI领军企业智谱AI正式推出GLM432B0414系列大模型，以32B参数量实现全方位能力跃升。该系列创新性融合对话、推理、沉思等多元智能模块，在基准测试中展现出与GPT4o、DeepSeekV3R1等国际顶尖模型比肩的综合性能。尤为关键的是，智谱此次以MIT开源协议向全球开放模型权重，结合其突出的本地化部署优势，真正实现了"高性能"与"普惠性"的双重突破。作为"大模型六小虎"中IPO进程最快的企业，智谱此番动作既彰显了...

2025-04-17 06:52:43 3155浏览 0点赞 0回复 0收藏

获得成就

已积累 1.3w 人气

获得 0 个点赞

获得 0 次收藏