AIGCStudio
LV.2
关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等
声望 101
关注 0
粉丝 0
私信
主帖 10
回帖
字节跳动的智能创作团队提出了一个从单一主题发展到多主题定制的通用框架UNO,从少到多的泛化:通过情境生成释放更多可控性。能够将不同的任务统一在一个模型下。在单主题和多主题驱动的生成中都能实现高度一致性,同时确保可控性。举一个例子:上传一张人物,一身衣服,一个包,UNO就可以生成这个人穿着衣服拿着包的效果图,效果看起来很真实!相关链接论文:https:arxiv.orgabs2504.02160主页:https:bytedance.github.ioUNO...
8天前 245浏览 0点赞 0回复 0收藏
由香港科技大学、快手科技提出的UNIC(统一上下文视频编辑)是一个简单而有效的框架,它以上下文的方式统一单个模型中的各种视频编辑任务。从此,视频编辑用着一个工具就够了!ID插入ID交换删除ID相机控制风格化第一帧传播紧急任务组合UNIC还表现出了新兴任务组合能力。重新拍摄+风格化ID+风格化相关链接论文:https:arxiv.orgpdf2506.04216主页:https:zixuanye.github.ioUNIC论文介绍UNIC:框架和设计动机基于DDIM反转的方法...
8天前 527浏览 0点赞 0回复 0收藏
在虚拟形象与数字内容需求激增的当下,传统3D数字人制作的高昂成本(动辄数十万美元)与复杂流程,让许多行业望而却步。而今天,一款由Duix.com团队打造的开源AI项目HeyGem,正以颠覆性技术打破这一壁垒,重新定义数字人创作范式。开发者可基于其框架二次开发,拓展更多应用场景(如医疗问诊、虚拟偶像等)。随着社区贡献者的加入,这一项目有望成为数字人领域的“Android系统”,推动整个行业向低成本、高效率、普惠化方向发展...
2025-05-28 06:28:19 1233浏览 0点赞 0回复 0收藏
慕尼黑工业大学和伦敦大学学院提出了一款经过微调的DINOViT模型Pixel3DMM,用于逐像素表面法线和UV坐标预测。从上到下,下图展示了FFHQ输入图像、估计的表面法线、根据预测的UV坐标估计的二维顶点,以及针对上述两个线索的FLAME拟合结果。图片使用Pixel3DMM进行野外追踪。从左到右:输入、预测法线、预测二维顶点、跟踪覆盖、FLAME跟踪。单幅图像重建给定一个输入图像(右上),下图展示了DECA、FlowFace和Ours相对于地面真实CO...
2025-05-14 07:00:35 697浏览 0点赞 0回复 0收藏
Phantom是一个统一的视频生成框架,适用于单主题和多主题参考,基于现有的文本转视频和图像转视频架构构建。它通过重新设计联合文本图像注入模型,利用文本图像视频三元组数据实现跨模态对齐。此外,它在人物生成中强调主题一致性,同时增强了身份保留视频生成。相关链接论文:https:arxiv.orgabs2502.11079代码:https:github.comPhantomvideoPhantom主页:https:phantomvideo.github.ioPhantomComfyUI:https:github.comkijaiC...
2025-04-28 00:29:10 838浏览 0点赞 0回复 0收藏
2025年4月14日,中国AI领军企业智谱AI正式推出GLM432B0414系列大模型,以32B参数量实现全方位能力跃升。该系列创新性融合对话、推理、沉思等多元智能模块,在基准测试中展现出与GPT4o、DeepSeekV3R1等国际顶尖模型比肩的综合性能。尤为关键的是,智谱此次以MIT开源协议向全球开放模型权重,结合其突出的本地化部署优势,真正实现了"高性能"与"普惠性"的双重突破。作为"大模型六小虎"中IPO进程最快的企业,智谱此番动作既彰显了...
2025-04-17 06:52:43 1474浏览 0点赞 0回复 0收藏
FlashFace技术是由香港大学、阿里巴巴集团、蚂蚁集团共同研发的一项实用工具,用户可以通过提供一张或几张参考面部图像和文本提示,就可以轻松地即时个性化自己的相片。与现有的人像定制方法相比,FlashFace方法具有更高保真度的身份保留性。能够精确地保留参考人脸的特征,包括纹身、疤痕等。这意味着,无论是真实人物还是虚拟角色,FlashFace都能够准确地捕捉到他们独特的面部特征,如罕见的脸型等。下面展示一些FlashFace的...
2025-04-07 00:22:03 1490浏览 0点赞 0回复 0收藏
今天给大家介绍一个字节刚开源的换脸写真新模型InfiniteYou,这是一种先进的零样本身份ID一致性保持模型,由字节跳动基于文生图领域最强开源模型FLUX模型研发的。InfiniteYou专注于利用扩散变换器(DiTs)技术实现灵活且高保真的身份保留图像生成。它解决了现有方法中存在的问题,如身份相似性不足、文本与图像对齐不佳以及生成质量和美学水平低下等。同时,InfiniteYou具有高度的兼容性,可以与现有的多种方法无缝集成,如FLUX...
2025-04-07 00:18:40 1820浏览 0点赞 0回复 0收藏
Docling团队联合IBM提出了一种多模式图像文本到文本模型SmolDocling,旨在实现高效的文档转换。它保留了Docling最受欢迎的功能,同时通过无缝支持DoclingDocuments确保与Docling完全兼容。目前已经冲到了Huggingface热门榜单Top3!相关链接主页:https:huggingface.cods4sdSmolDocling256Mpreview论文:https:arxiv.orgabs2503.11576试用:https:huggingface.cospacesds4sdSmolDocling256MDemo特点:🏷️用于高效标记化的DocTags...
2025-03-25 01:06:48 1632浏览 0点赞 0回复 0收藏
LuminaBrushLuminaBrush是一个构建交互式工具以在图像上绘制照明效果的项目。该框架采用两阶段方法:第一阶段将图像转换为“均匀照明”的外观,第二阶段利用用户涂鸦生成照明效果。。相关链接HF演示:https:huggingface.cospaceslllyasvielLuminaBrushGitHub:https:github.comlllyasvielLuminaBrush演示LuminaBrush目前基于Flux。种子为12345的示例:框架LuminaBrush是一个两阶段框架。第一阶段(左侧)将图像转换为“均匀照明...
2025-03-10 00:56:47 1730浏览 0点赞 0回复 0收藏
获得成就
已积累 2856 人气
获得 0 个点赞
获得 0 次收藏