AIGCStudio
LV.2
关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等
声望 143
关注 0
粉丝 0
私信
主帖 16
回帖
由北京人工智能研究院提出的OmniGen2是一个统一的多模态生成模型,它将强大的视觉理解、文本到图像的合成、基于指令的图像编辑以及主题驱动的上下文生成功能整合在一个框架内。它基于解耦架构,在保留高质量语言模型的同时,实现了细粒度且一致的视觉输出。除了生成功能之外,OmniGen2还集成了多模态反射机制,使其能够分析、评估并迭代优化其输出,从而将推理和自我修正功能引入图像生成过程。凭借在生成和理解任务中均表现出...
5天前 2593浏览 0点赞 0回复 0收藏
由约翰霍普金斯大学、字节跳动,斯坦福大学、香港中文大学联合提出的CaptainCinema旨在创作具有专业电影级品质的多场景电影,同时通过超长上下文记忆保持角色和场景的一致性。你可以成为导演,用您的想法、场景和角色重新制作任何电影。创建你自己的宇宙CaptainCinema可以将故事线分支成截然不同的路径,每条路径都保持着内在的一致性,同时又能探索不同的创意想象。这部电影短片讲述了布鲁斯·韦恩、小丑和阿尔弗雷德·潘尼沃...
5天前 1609浏览 0点赞 0回复 0收藏
由南洋理工大学推出Sparc3D是一个统一的框架,它将稀疏可变形行进立方体表示Sparcubes与新型编码器SparconvVAE相结合。Sparcubes通过将有符号距离和变形场散射到稀疏立方体上,将原始网格转换为具有任意拓扑的高分辨率(1024³)表面,从而实现可微分优化。SparconvVAE是第一个完全基于稀疏卷积网络构建的模态一致性变分自编码器,能够通过潜在扩散实现高效且近乎无损的三维重建,适用于高分辨率生成建模。相关链接论文:https:ar...
2025-07-08 06:23:27 1895浏览 0点赞 0回复 0收藏
迄今为止,所有功能强大的生成式图像编辑模型都只能作为专有工具使用。如今,黑森林实验室发布了FLUX.1Kontext[dev],这是FLUX.1Kontext[pro]的开发者版本,它在一个120亿参数的模型中提供专有级别的图像编辑性能,并且可在消费级硬件上运行。开放模型权重是技术创新的基石。FLUX.1Kontext[dev]现已作为开放权重模型在FLUX.1非商业许可证下发布,可供研究和非商业用途免费使用。FLUX.1Kontext[dev]与现有的FLUX.1[dev]推理代码...
2025-07-08 06:21:45 2472浏览 0点赞 0回复 0收藏
ShareGPT4oImage是一个大规模、高质量的图像生成数据集,其中所有图像均由GPT4o的图像生成功能生成。该数据集旨在将开放式多模态模型与GPT4o在视觉内容创作方面的优势相结合。它包含45,000个文本转图像和46,000个文本转图像样本,使其成为增强多模态模型在图像生成和编辑任务中的实用资源。Janus4o是一款多模态LLM,能够进行文本转图像和文本+图像转图像的生成。它基于JanusPro,使用ShareGPT4oImage数据集进行微调。与JanusPro...
2025-07-07 07:50:32 866浏览 0点赞 0回复 0收藏
腾讯提出了一个多模态定制视频生成框架HunyuanCustom,该框架强调主题一致性,同时支持图像、音频、视频和文本条件。基于HunyuanVideo,该模型首先通过引入基于LLaVA的文本图像融合模块来增强多模态理解,以及利用时间连接来增强跨帧身份特征的图像ID增强模块,从而解决了图像文本条件生成任务。单主题视频定制一致性故事生成与最先进的方法的比较多主题视频定制多主题定制音频驱动的视频定制HunyuanCustom首次实现了音频驱动的...
2025-06-23 09:48:56 653浏览 0点赞 0回复 0收藏
字节跳动的智能创作团队提出了一个从单一主题发展到多主题定制的通用框架UNO,从少到多的泛化:通过情境生成释放更多可控性。能够将不同的任务统一在一个模型下。在单主题和多主题驱动的生成中都能实现高度一致性,同时确保可控性。举一个例子:上传一张人物,一身衣服,一个包,UNO就可以生成这个人穿着衣服拿着包的效果图,效果看起来很真实!相关链接论文:https:arxiv.orgabs2504.02160主页:https:bytedance.github.ioUNO...
2025-06-10 07:22:12 666浏览 0点赞 0回复 0收藏
由香港科技大学、快手科技提出的UNIC(统一上下文视频编辑)是一个简单而有效的框架,它以上下文的方式统一单个模型中的各种视频编辑任务。从此,视频编辑用着一个工具就够了!ID插入ID交换删除ID相机控制风格化第一帧传播紧急任务组合UNIC还表现出了新兴任务组合能力。重新拍摄+风格化ID+风格化相关链接论文:https:arxiv.orgpdf2506.04216主页:https:zixuanye.github.ioUNIC论文介绍UNIC:框架和设计动机基于DDIM反转的方法...
2025-06-10 07:19:38 964浏览 0点赞 0回复 0收藏
在虚拟形象与数字内容需求激增的当下,传统3D数字人制作的高昂成本(动辄数十万美元)与复杂流程,让许多行业望而却步。而今天,一款由Duix.com团队打造的开源AI项目HeyGem,正以颠覆性技术打破这一壁垒,重新定义数字人创作范式。开发者可基于其框架二次开发,拓展更多应用场景(如医疗问诊、虚拟偶像等)。随着社区贡献者的加入,这一项目有望成为数字人领域的“Android系统”,推动整个行业向低成本、高效率、普惠化方向发展...
2025-05-28 06:28:19 3906浏览 0点赞 0回复 0收藏
慕尼黑工业大学和伦敦大学学院提出了一款经过微调的DINOViT模型Pixel3DMM,用于逐像素表面法线和UV坐标预测。从上到下,下图展示了FFHQ输入图像、估计的表面法线、根据预测的UV坐标估计的二维顶点,以及针对上述两个线索的FLAME拟合结果。图片使用Pixel3DMM进行野外追踪。从左到右:输入、预测法线、预测二维顶点、跟踪覆盖、FLAME跟踪。单幅图像重建给定一个输入图像(右上),下图展示了DECA、FlowFace和Ours相对于地面真实CO...
2025-05-14 07:00:35 1199浏览 0点赞 0回复 0收藏
Phantom是一个统一的视频生成框架,适用于单主题和多主题参考,基于现有的文本转视频和图像转视频架构构建。它通过重新设计联合文本图像注入模型,利用文本图像视频三元组数据实现跨模态对齐。此外,它在人物生成中强调主题一致性,同时增强了身份保留视频生成。相关链接论文:https:arxiv.orgabs2502.11079代码:https:github.comPhantomvideoPhantom主页:https:phantomvideo.github.ioPhantomComfyUI:https:github.comkijaiC...
2025-04-28 00:29:10 1186浏览 0点赞 0回复 0收藏
2025年4月14日,中国AI领军企业智谱AI正式推出GLM432B0414系列大模型,以32B参数量实现全方位能力跃升。该系列创新性融合对话、推理、沉思等多元智能模块,在基准测试中展现出与GPT4o、DeepSeekV3R1等国际顶尖模型比肩的综合性能。尤为关键的是,智谱此次以MIT开源协议向全球开放模型权重,结合其突出的本地化部署优势,真正实现了"高性能"与"普惠性"的双重突破。作为"大模型六小虎"中IPO进程最快的企业,智谱此番动作既彰显了...
2025-04-17 06:52:43 2323浏览 0点赞 0回复 0收藏
FlashFace技术是由香港大学、阿里巴巴集团、蚂蚁集团共同研发的一项实用工具,用户可以通过提供一张或几张参考面部图像和文本提示,就可以轻松地即时个性化自己的相片。与现有的人像定制方法相比,FlashFace方法具有更高保真度的身份保留性。能够精确地保留参考人脸的特征,包括纹身、疤痕等。这意味着,无论是真实人物还是虚拟角色,FlashFace都能够准确地捕捉到他们独特的面部特征,如罕见的脸型等。下面展示一些FlashFace的...
2025-04-07 00:22:03 2048浏览 0点赞 0回复 0收藏
今天给大家介绍一个字节刚开源的换脸写真新模型InfiniteYou,这是一种先进的零样本身份ID一致性保持模型,由字节跳动基于文生图领域最强开源模型FLUX模型研发的。InfiniteYou专注于利用扩散变换器(DiTs)技术实现灵活且高保真的身份保留图像生成。它解决了现有方法中存在的问题,如身份相似性不足、文本与图像对齐不佳以及生成质量和美学水平低下等。同时,InfiniteYou具有高度的兼容性,可以与现有的多种方法无缝集成,如FLUX...
2025-04-07 00:18:40 2609浏览 0点赞 0回复 0收藏
Docling团队联合IBM提出了一种多模式图像文本到文本模型SmolDocling,旨在实现高效的文档转换。它保留了Docling最受欢迎的功能,同时通过无缝支持DoclingDocuments确保与Docling完全兼容。目前已经冲到了Huggingface热门榜单Top3!相关链接主页:https:huggingface.cods4sdSmolDocling256Mpreview论文:https:arxiv.orgabs2503.11576试用:https:huggingface.cospacesds4sdSmolDocling256MDemo特点:🏷️用于高效标记化的DocTags...
2025-03-25 01:06:48 2207浏览 0点赞 0回复 0收藏
LuminaBrushLuminaBrush是一个构建交互式工具以在图像上绘制照明效果的项目。该框架采用两阶段方法:第一阶段将图像转换为“均匀照明”的外观,第二阶段利用用户涂鸦生成照明效果。。相关链接HF演示:https:huggingface.cospaceslllyasvielLuminaBrushGitHub:https:github.comlllyasvielLuminaBrush演示LuminaBrush目前基于Flux。种子为12345的示例:框架LuminaBrush是一个两阶段框架。第一阶段(左侧)将图像转换为“均匀照明...
2025-03-10 00:56:47 2042浏览 0点赞 0回复 0收藏
获得成就
已积累 6521 人气
获得 0 个点赞
获得 0 次收藏