EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说,EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件(例如说话、唱歌的声音),EMO就能够根据音频内容生成一个生动的视频,视频中的人物会展现出丰富的面部表情和多变的头部动作,仿佛照片中的人物正在唱你所制定的语言或歌曲。
EMO系统不仅精准地捕获了人类微妙的表情细节和面部特征的个性化风格,因此能够生成高度真实感和强烈表现力的动态图像。而且,它还能根据输入音频的长度生成任意长度的视频,保持角色身份的一致性。无论是处理不同语言的歌曲、使古代画像动起来,还是生成具有逼真动作和表情的三维或AI生成内容,EMO都能够轻松应对,注入生动的动态效果。此外,它还能够驾驭快速节奏,确保快速歌词与角色动画的同步。
EMO (Emote Portrait Alive) 效果演示demo:
https://img.pidoutv.com/wp-content/uploads/2024/03/1453312183-1-16.mp4
EMO (Emote Portrait Alive) 项目地址
官方项目主页:https://humanaigc.github.io/emote-portrait-alive/
@arXiv研究论文:https://arxivorg/abs/2402.17485
GitHub: https://github.com/HumanAIGC/EMO(模型和源码待开源)
EMO(Emote Portrait Alive)的功能特点
- 音频驱动的视频生成:EMO系统基于音频信号来驱动肖像视频的生成。用户只需要提供一张参考图片和一段音频,EMO便能根据音频内容,如语音的节奏、音调和音量等,来生成对应的人物面部表情和头部动作。
- 丰富的表情和动作:EMO能够精准地捕捉人类微妙的表情细节,并生成多样化的头部动作。这使得生成的视频具有高度的真实感和强烈的表现力,仿佛照片中的人物真的在唱歌、说话或者做其他动作。
- 保持人物身份一致性:不论音频的时长如何,EMO都能生成与参考图片中人物身份一致的动态视频。这使得生成的视频具有连续性和统一性,用户可以根据需要生成任意长度的视频。
- 跨语言和多场景应用:EMO不仅能处理不同语言的音频,如中文、英文等,还能应用于多种场景,如使古代画像动起来、生成具有逼真动作和表情的三维或AI生成内容等。这展示了其广泛的适用性和灵活性。
- 同步性和节奏感:EMO能够驾驭快速节奏的音频,确保生成的视频与音频保持同步。这使得生成的肖像视频在演唱快速歌曲或进行快速对话时,仍然能够保持流畅和连贯。
- 个性化风格保留:在生成动态视频的过程中,EMO能够保持面部特征的个性化风格,使得生成的视频不仅具有动态效果,还能保留原始图片中的人物特色。
EMO (Emote Portrait Alive) 的技术原理
- 输入准备:用户提供一个参考图像(通常是目标角色的静态肖像)和相应的音频输入(如说话或唱歌的声音)。这些输入将作为生成视频的基础。
- 特征提取:使用ReferenceNet从参考图像中提取特征。ReferenceNet是一个与主网络(Backbone Network)结构相似的网络,它专注于从输入图像中提取详细的特征。
- 音频处理:音频输入通过预训练的音频编码器处理,以提取音频特征。这些特征捕捉了语音的节奏、音调和发音等信息,这些信息将用来驱动视频中角色的面部表情和头部动作。
- 生成视频:EMO利用骨干网络获取多帧噪声潜在输入,并尝试在每个时间步将它们去噪到连续的视频帧。骨干网络采用类似于SD 1.5的UNet结构,其中包含了用于维持生成帧之间连续性的时间模块。
- 注意力机制:EMO利用两种形式的注意力机制——参考注意力(Reference-Attention)和音频注意力(Audio-Attention)。参考注意力用于保持角色身份的一致性,而音频注意力则用于调整角色的动作,使之与音频信号相匹配。
- 时间模块:这些模块用于操纵时间维度并调整动作速度,以生成流畅且连贯的视频序列。时间模块通过自注意力层跨帧捕获动态内容,有效地在不同的视频片段之间维持一致性。
- 训练策略:EMO的训练分为三个阶段:图像预训练、视频训练和速度层训练。速度层的训练专注于调整角色头部的移动速度和频率。
- 去噪过程:在生成过程中,Backbone Network尝试去除多帧噪声,生成连续的视频帧。参考特征和音频特征被结合使用,以生成高度真实和表情丰富的视频内容。
EMO模型通过这种结合使用参考图像、音频信号和时间信息的方法,能够生成与输入音频同步且在表情和头部姿势上富有表现力的肖像视频,超越了传统技术的限制,创造出更加自然和逼真的动画效果。