AAAI 2021最「严」一届放榜:录取率仅21%,网易伏羲9篇论文入选(5)
发布时间:2020-12-08 00:02 所属栏目:15 来源:网络整理
导读:本文的算法由两个阶段组成:第一阶段与特定说话人无关,包括三个并行网络,分别用于生成口型、眉眼表情和头部运动三组动作参数; 第二阶段合成特定说话人视频,基于三维人脸信息监督的自适应注意力网络来生成不同特
本文的算法由两个阶段组成:第一阶段与特定说话人无关,包括三个并行网络,分别用于生成口型、眉眼表情和头部运动三组动作参数; 第二阶段合成特定说话人视频,基于三维人脸信息监督的自适应注意力网络来生成不同特定人的说话视频, 此阶段以动作参数作为输入,生成注意力掩码来修改不同说话人的面部表情变化。为了更好的采集面部动作和说话内容的关系,本文借助动作捕捉设备建立了一个音视频同步数据集。基于这个动捕数据集,本文的算法可以实现高效的端到端训练。 (由算法合成的说话人脸视频) 定性和定量的实验结果表明,基于任意特定人物的少量视频数据(5分钟),本文的算法能够从文字生成有情绪和韵律节奏的该特定人物的像素级说话人脸视频,其中视觉质量超过已有方法。 (编辑:ASP站长网) |
相关内容
网友评论
推荐文章
热点阅读