
EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说,EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件(例如说话、唱歌的声音),EMO就能够根据音频内容生成一个生动的视频,视频中的人物会展现出丰富的面部表情和多变的头部动作,仿佛照片中的人物正在唱你所制定的语言或歌曲。
EMO系统不仅精准地捕获了人类微妙的表情细节和面部特征的个性化风格,因此能够生成高度真实感和强烈表现力的动态图像。而且,它还能根据输入音频的长度生成任意长度的视频,保持角色身份的一致性。无论是处理不同语言的歌曲、使古代画像动起来,还是生成具有逼真动作和表情的三维或AI生成内容,EMO都能够轻松应对,注入生动的动态效果。此外,它还能够驾驭快速节奏,确保快速歌词与角色动画的同步。
EMO (Emote Portrait Alive) 效果演示demo:
https://img.pidoutv.com/wp-content/uploads/2024/03/1453312183-1-16.mp4
EMO (Emote Portrait Alive) 项目地址
官方项目主页:https://humanaigc.github.io/emote-portrait-alive/
@arXiv研究论文:https://arxivorg/abs/2402.17485
GitHub: https://github.com/HumanAIGC/EMO(模型和源码待开源)
EMO(Emote Portrait Alive)的功能特点
- 音频驱动的视频生成:EMO系统基于音频信号来驱动肖像视频的生成。用户只需要提供一张参考图片和一段音频,EMO便能根据音频内容,如语音的节奏、音调和音量等,来生成对应的人物面部表情和头部动作。
- 丰富的表情和动作:EMO能够精准地捕捉人类微妙的表情细节,并生成多样化的头部动作。这使得生成的视频具有高度的真实感和强烈的表现力,仿佛照片中的人物真的在唱歌、说话或者做其他动作。
- 保持人物身份一致性:不论音频的时长如何,EMO都能生成与参考图片中人物身份一致的动态视频。这使得生成的视频具有连续性和统一性,用户可以根据需要生成任意长度的视频。
- 跨语言和多场景应用:EMO不仅能处理不同语言的音频,如中文、英文等,还能应用于多种场景,如使古代画像动起来、生成具有逼真动作和表情的三维或AI生成内容等。这展示了其广泛的适用性和灵活性。
- 同步性和节奏感:EMO能够驾驭快速节奏的音频,确保生成的视频与音频保持同步。这使得生成的肖像视频在演唱快速歌曲或进行快速对话时,仍然能够保持流畅和连贯。
- 个性化风格保留:在生成动态视频的过程中,EMO能够保持面部特征的个性化风格,使得生成的视频不仅具有动态效果,还能保留原始图片中的人物特色。
EMO (Emote Portrait Alive) 的技术原理
- 输入准备:用户提供一个参考图像(通常是目标角色的静态肖像)和相应的音频输入(如说话或唱歌的声音)。这些输入将作为生成视频的基础。
- 特征提取:使用ReferenceNet从参考图像中提取特征。ReferenceNet是一个与主网络(Backbone Network)结构相似的网络,它专注于从输入图像中提取详细的特征。
- 音频处理:音频输入通过预训练的音频编码器处理,以提取音频特征。这些特征捕捉了语音的节奏、音调和发音等信息,这些信息将用来驱动视频中角色的面部表情和头部动作。
- 生成视频:EMO利用骨干网络获取多帧噪声潜在输入,并尝试在每个时间步将它们去噪到连续的视频帧。骨干网络采用类似于SD 1.5的UNet结构,其中包含了用于维持生成帧之间连续性的时间模块。
- 注意力机制:EMO利用两种形式的注意力机制——参考注意力(Reference-Attention)和音频注意力(Audio-Attention)。参考注意力用于保持角色身份的一致性,而音频注意力则用于调整角色的动作,使之与音频信号相匹配。
- 时间模块:这些模块用于操纵时间维度并调整动作速度,以生成流畅且连贯的视频序列。时间模块通过自注意力层跨帧捕获动态内容,有效地在不同的视频片段之间维持一致性。
- 训练策略:EMO的训练分为三个阶段:图像预训练、视频训练和速度层训练。速度层的训练专注于调整角色头部的移动速度和频率。
- 去噪过程:在生成过程中,Backbone Network尝试去除多帧噪声,生成连续的视频帧。参考特征和音频特征被结合使用,以生成高度真实和表情丰富的视频内容。
EMO模型通过这种结合使用参考图像、音频信号和时间信息的方法,能够生成与输入音频同步且在表情和头部姿势上富有表现力的肖像视频,超越了传统技术的限制,创造出更加自然和逼真的动画效果。
数据统计
相关导航

盘古大模型 3.0 是一个面向行业的AI大模型系列,包含自然语言、视觉、多模态、预测、科学计算大模型等五个基础大模型,可以为用户提供知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力。

GPT智库
GPT 智库是一款强大的人工智能大模型综合应用,提供互联网境外访问绿色通道、汇聚了全球顶尖的人工智能大模型和学术资源。它具备智能对话、文生图、图生图、音频翻译、图像分析和全球学术资料搜索等多种功能,为科研院所、新闻媒体、高校和政府部门提供安全、合规、可控的全球一流人工智能服务。

EduChat
EduChat是一个教育领域的对话大模型,提供开放问答、作文批改、启发式教学和情感支持等教育特色功能,助力实现因材施教、公平公正、富有温度的智能教育。

Yi大模型
Yi大模型是由李开复博士领导的AI公司“零一万物”发布的一款开源的中英双语预训练大模型。这个模型在多个性能指标上取得了国际最佳性能认可,被称为“全球最强开源模型”。Yi-34B模型特别之处在于它拥有全球最长的200K上下文窗口,能够处理40万汉字的超长文本输入,这在语言模型中是非常重要的,因为它对于理解和生成与特定上下文相关的文本至关重要。

天谱乐
天谱乐是唱鸭旗下的AI音乐品牌,为用户提供个性化、智能化的音乐创作体验。它支持文本、图片和视频生成音乐,让创作变得简单便捷。利用先进的多模态理解与生成技术,天谱乐能够生成与图片和视频情感高度契合的音乐,并提供发行级的歌曲创作服务。无论是专业音乐人还是普通爱好者,天谱乐都能帮助您高效创作出独一无二的音乐作品。

FunAudioLLM
FunAudioLLM 是由阿里巴巴通义团队开发的旨在增强人类与大型语言模型(LLMs)之间的自然语音交互的框架。其核心包括两个创新模型:SenseVoice 和 CosyVoice。SenseVoice 提供高精度的多语言语音识别、情绪识别和音频事件检测,支持超过 50 种语言,并具有极低的延迟。CosyVoice 则专注于自然语音生成,支持多语言、音色和情绪控制,能够进行零样本语音生成、跨语言语音克隆和指令遵循。

百度智能云客悦
百度智能云客悦是百度推出的智能客服平台。其旗下的智能外呼平台是一款集合NLP(自然语言处理)、ASR(自动语音识别)、TTS(语音合成)等人工智能技术,提供公有云服务并支持同时面向多名用户,自动发起外呼通话的智能化产品。

Step-Video-T2V
Step-Video-T2V 是由阶跃星辰与吉利汽车集团 联合开源的一款先进文本生成视频(Text-to-Video)模型。这款模型在 2025 年 2 月 18 日正式发布,具备强大的多模态生成能力,支持中文和英文输入,适用于广告、影视制作、教育等多个场景。
暂无评论...