上海AI Lab 震撼发布 FaceShot:无需训练,秒级生成高质量肖像动画

发布于 2025-6-4 06:07
浏览
0收藏

在人工智能快速发展的今天,肖像动画生成技术已经成为影视、游戏、教育等多个领域的重要应用。然而,现有的肖像动画生成方法大多依赖于复杂的训练过程和大量数据,难以快速适应多样化的角色和场景。FaceShot 作为一项创新技术,突破了传统方法的限制,为肖像动画生成带来了新的可能性。

上海AI Lab 震撼发布 FaceShot:无需训练,秒级生成高质量肖像动画-AI.x社区

一、项目概述

FaceShot 是由同济大学、上海 AI Lab 和南京理工大学联合推出的一种新型无需训练的肖像动画生成框架。它通过外观引导的地标匹配模块和基于坐标的地标重定位模块,为各种角色生成精确且鲁棒的地标序列,并利用潜在扩散模型的语义对应关系,跨越广泛的角色类型生成面部动作序列。FaceShot 不仅能够为人类角色生成动画,还能为非人类角色(如玩具、动物等)生成生动的动画效果,显著提升了肖像动画生成的通用性和灵活性。

上海AI Lab 震撼发布 FaceShot:无需训练,秒级生成高质量肖像动画-AI.x社区

二、技术原理

(一)外观引导的地标匹配模块

FaceShot 利用潜在扩散模型的语义对应关系,结合外观先验知识,为任意角色生成精确的面部地标。通过 DDIM 逆过程从参考图像和目标图像中提取扩散特征,减少不同领域之间的外观差异,并使用余弦距离进行地标匹配,确保地标在语义上的一致性。此外,引入外观画廊进一步优化匹配效果,提升地标匹配的准确性和鲁棒性。

(二)基于坐标的地标重定位模块

该模块通过坐标系变换捕捉驱动视频中的细微面部动作,生成与之对齐的地标序列。模块分为全局运动和局部运动两个阶段:全局运动负责计算面部的整体平移和旋转,局部运动则分别对眼睛、嘴巴、鼻子、眉毛和面部边界等部分进行相对运动和点运动的重定位。这种设计能够精确捕捉面部的全局和局部运动,生成稳定的地标序列。

(三)地标驱动的动画模型

将生成的地标序列输入预训练的动画模型(如MOFA-Video),生成最终的动画视频。通过将地标序列作为额外条件输入到动画模型的 U-Net 中,确保模型能够精确跟踪地标序列中的运动,从而生成与驱动视频一致的动画效果,同时保持角色的视觉身份。

上海AI Lab 震撼发布 FaceShot:无需训练,秒级生成高质量肖像动画-AI.x社区

三、主要功能​

(一)角色动画生成

FaceShot能为各类角色打造自然流畅的面部动画,精准保留原始特征。对于人类角色,它可细腻捕捉丰富表情,如喜怒哀乐,还能还原面部纹理、肤色和轮廓。比如为影视剧中的人物生成逼真的情感表达。对于非人类角色,像玩具、动物等,能依据其特点赋予生动动作。如让毛绒玩具眨眼、张嘴,为动物模拟奔跑、吼叫等,极大提升了肖像动画生成的通用性与灵活性,让不同角色都充满生命力。

(二)跨领域动画

FaceShot的跨领域动画功能打破传统局限,可利用人类视频驱动非人类角色动画。在儿童教育视频里,以孩子表情动作驱动玩具角色,孩子微笑时玩具同步开心,做鬼脸时玩具也滑稽互动,增添趣味性。影视创作中,能借人类演员表演驱动动物角色,创造更逼真场景。此功能拓展了肖像动画应用范围,让不同角色在同一动画中协同互动,丰富了表现形式。

(三)无需训练

传统动画生成依赖复杂训练和大量数据,耗时耗力且难适应多样角色场景。而FaceShot无需针对每个角色或驱动视频额外训练微调,直接生成高质量动画,大幅提高效率。紧急广告制作时,若用传统方法为新品牌吉祥物生成动画需数天甚至数周,用FaceShot则能快速完成,短时间内将吉祥物图像和驱动视频转化为生动动画,满足项目时间要求,降低成本。

(四)兼容性

FaceShot兼容性良好,可作为插件与任何地标驱动的动画模型无缝集成。它将生成的精确地标序列作为额外输入,与其他模型优势互补。和在动作细节处理出色的模型结合时,能为其提供更准确面部动作信息,提升动画流畅与准确性。还可借助其他模型在色彩、光影处理特长,丰富视觉效果。通过这种集成,FaceShot与其他模型共同为用户提供更优质动画生成服务。

四、应用场景

(一)影视娱乐

在影视娱乐领域,FaceShot应用广泛。电影制作中,科幻片的外星生物、机器人等虚拟角色,它能依据设计特点生成精确生动动画,让外星生物更神秘真实。电视剧里可为特效或配角增添动画,增强趣味性。动画电影中,能为迪士尼式的动物角色打造丰富表情动作,如让兔子灵动跳跃、眨眼。它为影视带来更丰富精彩的视觉体验,提升了作品的观赏性。

(二)游戏开发

游戏开发中,FaceShot能快速生成游戏角色动画,提升趣味性和沉浸感。大型多人在线角色扮演游戏里,可为玩家角色、NPC、怪物和宠物等生成多样动画。玩家操作技能时角色有炫酷动作表情,NPC有日常活动动画。休闲游戏如宠物养成中,能让宠物可爱互动。高质量动画让玩家仿佛置身真实游戏世界,增强了游戏的吸引力和玩家体验。

(三)教育领域

FaceShot让教育内容更生动,提高学生学习兴趣和教学互动性。中小学教学视频中,语文可将故事角色动画化,如《小红帽》角色生动呈现;数学能用动画演示几何图形变换和数字运算。高等和职业教育里,医学可展示人体器官工作原理,编程可演示代码逻辑。它把抽象知识转化为形象动画,促进学生理解,推动教学互动开展。

(四)广告营销

广告营销中,FaceShot可生成品牌吉祥物动画,提升品牌形象和用户参与感。以运动品牌吉祥物为例,能制作活力四射的运动动画,如跑步、跳跃等,搭配欢快表情音乐,营造积极氛围。社交媒体营销时,吉祥物动画能与用户互动,用户点赞评论时做出回应,增加参与粘性。它助力企业打造鲜活品牌形象,提高市场竞争力。

(五)VR/AR应用

在VR/AR应用中,FaceShot生成的虚拟角色动画可提升沉浸感和交互体验。VR游戏里,玩家与虚拟NPC互动时,NPC能根据玩家动作语音做出表情动作反应,如点头、微笑,让交流更真实。AR教育应用中,虚拟历史人物能通过动画展示生活场景和故事。它为VR/AR技术带来更真实丰富体验,推动其在各领域广泛应用。 

五、快速使用​

(一)克隆代码仓库

git clone https://github.com/open-mmlab/FaceShot.git
cd FaceShot

(二)环境设置

FaceShot 支持 CUDA 12.4,建议使用以下命令创建和激活 Python 环境:

conda create -n faceshot pythnotallow==3.10
conda activate faceshot
pip install -r requirements.txt
pip install "git+https://github.com/facebookresearch/pytorch3d.git"
pip install "git+https://github.com/XPixelGroup/BasicSR.git"

(三)下载预训练模型

1. 下载 MOFA-Video 的预训练模型,并将其放置到 `./models/cmp/experiments/semiauto_annot/resnet50_vip+mpii_liteflow/checkpoints` 文件夹中。

2. 下载 `ckpts` 文件夹中的预训练模型,并将其放置到 `./ckpts` 文件夹中。可以使用 `git lfs` 下载整个 `ckpts` 文件夹。

(四)运行推理脚本

chmod 777 inference.sh
./inference.sh

运行完成后,FaceShot 将生成动画视频,用户可以根据需要调整输入参数以生成不同风格的动画。

六、结语​

FaceShot 作为一种无需训练的肖像动画生成框架,为动画生成领域带来了新的突破。它不仅能够为人类角色生成高质量的动画,还能为非人类角色生成生动的动画效果,极大地扩展了肖像动画的应用范围。FaceShot 的高效性和兼容性使其成为动画生成领域的有力工具,为影视、游戏、教育等多个行业带来了新的机遇。

七、项目地址

项目官网:​​https://faceshot2024.github.io/faceshot/​

GitHub 仓库:​​https://github.com/open-mmlab/FaceShot​

技术论文:​​​https://arxiv.org/pdf/2503.00740​

本文转载自​小兵的AI视界​,作者:AGI小兵

已于2025-6-4 10:20:24修改
收藏
回复
举报
回复
相关推荐