CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名可控人脸视频生成理论和方法研究
作者宋林森
答辩日期2023-05-17
文献子类博士
关键词视频生成 人脸视频 生成模型 计算机视觉
英文摘要

人脸是人们展现出来的最直接的生物学特征。从古至今,人们就以各种形式对人脸进行描述,在多媒体时代下,人脸视频已经成为最丰富的描述人脸的媒介。作为计算机视觉领域的新兴研究方向之一,可控人脸视频生成理论和方法有着重要的研究意义与广泛的应用需求,例如电影后期阶段人脸视频的制作、互联网用户生成内容的创作等。尽管近期的相关工作在可控人脸视频生成上已经取得了一些研究进展和实际应用成果,但是可控人脸视频生成任务依然有些新兴方向需要研究,有些困难挑战亟待解决。一方面,视频中的人脸包含着丰富多样的表情以及不同类别和强度的情感。如何结合输入的驱动信息生成准确的人脸表情,如何自由控制生成视频中人脸的情感是可控人脸视频生成中不可回避的难点问题。另一方面,大部分人脸视频生成方法关注于正面人脸视频的生成,而且需要大量的训练数据作为支撑,然而这些要求在现实应用中难以实现。可控人脸视频生成中的视角挑战与数据量挑战是该技术在通往实际应用道路上必须要面对的难点问题。本文针对上述问题,从表情控制、情感控制以及视角挑战、数据量挑战对可控人脸视频生成展开研究。并探索了真实人脸可控视频生成方法在类人脸上的扩展。本文取得的研究成果如下:

 

1.提出了表情可控和情感可控的人脸视频生成方法。为实现表情可控,考虑到语音和视频的帧内以及帧间的相关性,本文基于自注意模型提出了语音跨模态映射到表情的音频自注意力模型和生成人脸视频的视觉自注意力模型;同时,在视觉自注意力模型中引入信息瓶颈技术以保证有限数据量下的生成模型的泛化能力。为实现情感可控,考虑到目前学术界缺少大规模的多视角情感人脸音视频数据集,本文建立了包含60个多种族演员的7种视角、8种情感、3种情感强度的音视频数据,该数据集包含281,400个音视频片段,平均每个演员的音视频数据的时长大约为39分钟。这是目前国内外公开的人脸音视频数据集中视角数最多、情感种类和强度数量最多、分辨率最高、每个演员平均数据最长的数据集。基于此数据集,本文设计了一个中性-情感转换网络和条件控制生成网络实现对人脸视频中情感的自由控制。

 

2.提出了面向多视角挑战和有限数据量挑战的可控人脸视频生成方法。这些方法扩大了可控人脸视频生成在实际中的应用。针对多视角挑战,本文在三维空间中对视频中的人脸进行参数化的表示与解耦,并以解耦的表情为媒介使用驱动的语音在三维空间中控制人脸的表情。依据视频中人脸的视角,三维空间中被驱动的人脸经过投影和渲染生成视角不同的可控人脸视频。此外,对语音和三维人脸模型中身份信息的解耦使得该方法实现了多对多驱动的人脸视频生成。针对有限数据量挑战,本文提出了基于搜索的半参数化视频生成模型以充分利用训练数据中的人脸纹理生成尽可能真实连续的人脸视频。有限的数据量也给学习视频数据中人脸表情的风格带来了困难,本文为此设计了跨模态融合内容与风格的网络。

 

3.对类人脸的可控视频生成做出尝试。这样的类人脸主要指视觉上让人觉得类似真实人脸的人脸。与真实人脸相比,类人脸在形状和纹理上有更多的多样性。针对形状多样性,本文对真实人脸和类人脸的形状利用贝塞尔曲线进行统一的形状建模和动作表示,并利用该动作表示将真实人脸的动作迁移到类人脸。针对纹理多样性,本文提出二维的运动扩散和近似方法以估计驱动类人脸图像的光流。本文首次提出这一探索性研究并提出了解决办法。类人脸的形状和纹理多样性同样出现在玩具脸、动物脸以及卡通脸等类人脸上,该研究或许可以启发更多类人脸的可控视频生成的研究。

语种中文
学科主题计算机神经网络
页码146
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/51931]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
宋林森. 可控人脸视频生成理论和方法研究[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace