基于GAN研究,英伟达让一张照片变成逼真的人脸说话视频

来源:爱集微 #英伟达# #GAN#
2.4w

集微网消息,在CVPR 2021期间,英伟达展示了仅用一张人物2D图像即可合成逼真的人脸说话视频。

据英伟达介绍,Vid2Vid Cameo是用于视频会议的 NVIDIA Maxine SDK背后的深度学习模型之一。借助生成式对抗网络(GAN),参与者只需在加入视频通话前提交一张真实照片或卡通头像,即可在会议期间,通过AI模型捕捉每个人实时动作,并应用于上传的静态图像上

这也意味着,即使你蓬头垢面,穿着懒散,只要上传的照片形象无误,那么你在通话中的形象仍旧是美好的,因为AI可以将用户面部动作映射到照片上。

除了这项有趣的技术外,AI还可将视频会议所需的带宽降低10倍,从而避免抖动和延迟。

英伟达研究人员兼项目的联合创作者Ming-Yu Liu表示:”许多人的互联网带宽有限,但仍然希望与朋友和家人进行流畅的视频通话。这项基础技术除了可以为他们提供帮助外,还可用于协助动画师、照片编辑师和游戏开发者的工作。”

Vid2Vid Cameo只需两个元素,即可为视频会议打造逼真的AI人脸说话动态,这两个元素分别是一张人物外貌照片和一段视频流,它们决定了如何对图像进行动画处理。Vid2Vid Cameo的主要功能,包括面部重定向、动画头像和数据压缩。这些功能即将登陆NVIDIA Maxine SDK,为开发者提供经过优化的预训练模型,以便在视频会议和直播中实现视频、音频和增强现实效果。

开发者已经能采用 Maxine AI效果,包括智能除噪、视频升采样和人体姿态估计。SDK支持免费下载,还可与 NVIDIA Jarvis平台搭配用于对话式AI应用,包括转录和翻译。

据了解,Vid2Vid Cameo模型基于 NVIDIA DGX 系统开发,使用包含18万个高质量人脸说话视频的数据集进行训练。网络已掌握识别20个关键点,这些关键点可用于在没有人工标注的情况下对面部动作进行建模。这些点对特征(包括眼睛、嘴和鼻子)的位置进行编码。

然后,它会从通话主导者的参照图像中提取这些关键点,这些关键点可以提前发送给其他的视频会议参与者,也可以重新用于之前的会议。这样一来,视频会议平台只需发送演讲者面部关键点的移动情况数据,无需将某参与者的大量直播视频流推送给其他人。

对于接收者一端,GAN模型会使用此信息,模拟参照图像的外观以合成一个视频。

通过仅来回压缩及发送头部位置和关键点,而不是完整的视频流,此技术将视频会议所需的带宽降低10倍,从而提供更流畅的用户体验。该模型可以进行调整,传输不同数量的关键点,以实现在不影响视觉质量的条件下,适应不同的带宽环境。

此外,还可以自由调整所生成的人脸说话视频的视角,可以从侧边轮廓或笔直角度,也可以从较低或较高的摄像头角度来显示用户。处理静态图像的照片编辑者也可以使用此功能。

Vid2Vid Cameo本周发表于著名的国际计算机视觉与模式识别会议,这是英伟达在本次虚拟会议上发表的28篇论文之一。Vid2Vid Cameo论文由英伟达研究人员Ting-Chun Wang、Arun Mallya和Ming-Yu Liu共同撰写。英伟达研究团队在全球拥有超过200名科学家,专注于AI、计算机视觉、自动驾驶汽车、机器人和图形等领域。

(校对/Sharon)

责编: 干晔
来源:爱集微 #英伟达# #GAN#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...