微软推出VASA-1：可生成会说话的，动态人物视频

添加书签

AIGC开放社区
2024-04-20

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

微软亚洲研究院推出了VASA-1，用户只需要输入一张图片和一段音频，就能生成表情丰富、细节逼真的动态人物视频。

根据其demo演示的效果，能以45fps 生成 512×512 分辨率的视频帧，在线流媒体环境中可以支持高达 40fps 的帧率。

而延迟只有170ms左右，并且只需一张英伟达的4090 GPU即可，整体性能非常高效。

论文地址：https://arxiv.org/abs/2404.10667

VASA-1的demo演示

早在今年2月末，阿里巴巴的研究人员便发布了一款类似的视频模型EMO，通过一张图片、音频就能生成实时会说话的人物视频，成功将张国荣、奥黛丽赫本等名人“复活”，当时在AI圈内引起了很大的反响。

EMO生成的张国荣唱歌视频

随后，清华大学、东京大学、庆应义塾大学等联合开源了EMAGE；华为、腾讯开源了AniPortrait；谷歌推出了VLOGGER模型，在生成效果方面基本与EMO差不多。

再加上微软本次推出的VASA-1，可以充分说明人物视频合成领域已经受到了广泛的关注，并且很大的应用空间。

例如，前几天的“AI刘强东”在直播带货便小火了一把，引发上千万人围观，销售额甚至超过了一些头部真人大主播。这种数字人主播便离不开EMO、VASA-1这类技术的加持。

构建面部潜在空间

传统的人物合成视频，通常会将嘴唇运动、面部表情、眼睛凝视和眨眼等面部动态分开处理，这样做虽然可以精准捕获面部细节，但在合成阶段会出现不协调、抽搐、算力成本高等缺点。

而VASA-1对面部动态和头部运动进行了综合建模，将所有这些面部动态视为一个单一的潜在变量，并通过视频数据训练了一个表达丰富且解耦的面部潜在空间，能够以更低的资源消耗捕捉到人类面部的细微表情和头部动作，从而生成逼真、表情丰富的动态人物视频。

VASA-1生成的视频

为了构建面部潜在空间，VASA-1使用基于3D的辅助表示，并结合了一系列损失函数。

该方法能够在大量面部视频数据上进行自监督或弱监督训练，从而学习到具有高度解耦和表达性的面部潜在表示。这种表示不仅能够捕捉到丰富的面部动态细节，还能够在生成过程中提供有效的控制。

此外，VASA-1能够接受一组可选的控制信号，包括脸部凝视方向、头部到相机的距离，可以使得生成的面部表情，根据特定的业务场景需求进行动态调整，例如，直播带货、博物馆讲解、虚拟导游等。

音频驱动面部生成

音频在生成说话人物视频方面非常重要，不仅包括嘴唇的运动与音频同步，还涉及到面部表情、眼睛的转动以及其他非语言的动态行为与其相匹配。

VASA-1使用了一个扩散模型从输入的音频中提取特征，包括音高、音量、语调等。然后使用扩散变换器，根据提取的音频特征生成面部动态的潜在代码。

同时将额外的条件信号，例如，凝视方向、情感偏移、语速等，与音频特征一起输入到扩散变换器中，再通过生成的面部动态潜在代码和预先训练好的面部解码器，渲染出与音频同步的实施人物说话视频。

研究人员在VoxCeleb2、OneMin-32基准测试中对VASA-1进行了综合测试。结果显示，VASA-1在音频-唇部同步分数上表现最佳；SC和SD分数均高于其他模型，且接近真实视频的表现。

本文素材来源微软官网、VASA-1论文，如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区

即将举行的活动