FunAudioLLM

5天前发布 2 00

FunAudioLLM 是由阿里巴巴通义团队开发的旨在增强人类与大型语言模型(LLMs)之间的自然语音交互的框架。其核心包括两个创新模型:SenseVoice 和 CosyVoice。SenseVoice 提供高精...

收录时间:
2024-11-29
FunAudioLLMFunAudioLLM
FunAudioLLM

FunAudioLLM 是由阿里巴巴通义团队开发的旨在增强人类与大型语言模型(LLMs)之间的自然语音交互的框架。其核心包括两个创新模型:SenseVoice 和 CosyVoice。SenseVoice 提供高精度的多语言语音识别、情绪识别和音频事件检测,支持超过 50 种语言,并具有极低的延迟。CosyVoice 则专注于自然语音生成,支持多语言、音色和情绪控制,能够进行零样本语音生成、跨语言语音克隆和指令遵循。FunAudioLLM 的应用包括语音翻译、情感语音聊天、互动播客和表现力有声书等,推动语音交互技术的边界。

FunAudioLLM – 阿里通义开源的音频生成大模型

项目地址:

  • 项目官网:https://fun-audio-llm.github.io/
  • CosyVoice在线体验地址:https://www.modelscope.cn/studios/iic/CosyVoice-300M
  • SenseVoice在线体验地址:https://www.modelscope.cn/studios/iic/SenseVoice
  • GitHub仓库:https://github.com/FunAudioLLM
  • arXiv技术论文:https://arxiv.org/abs/2407.04051

FunAudioLLM的主要功能特点

1、SenseVoice:

  • 多语言语音识别:支持超过 50 种语言的高精度语音识别。
  • 情绪识别:能够识别说话者的情绪状态。
  • 音频事件检测:检测并识别音频中的特定事件。
  • 低延迟:提供极低的延迟,确保实时交互。

2、CosyVoice:

  • 自然语音生成:支持多语言、音色和情绪控制的自然语音生成。
  • 零样本语音生成:无需大量样本即可生成高质量语音。
  • 跨语言语音克隆:能够跨语言进行语音克隆。
  • 指令遵循:根据指令生成相应的语音内容。

这些功能使 FunAudioLLM 在语音翻译、情感语音聊天、互动播客和表现力有声书等应用中表现出色。

应用场景

FunAudioLLM 有多个应用场景,主要包括:

  1. 语音翻译:通过结合 SenseVoice 和 CosyVoice,可以实现多语言的语音到语音翻译(S2ST),并且能够保留原始语音的情感和语调。
  2. 情感语音聊天:利用 SenseVoice 的情感识别和 CosyVoice 的情感语音生成,可以开发出支持情感交互的语音聊天应用。
  3. 互动播客:通过 SenseVoice 的高精度语音识别和 CosyVoice 的多语言语音生成,可以创建互动式播客电台,用户可以实时参与并引导话题。
  4. 有声读物:结合 LLMs 的文本分析能力和 CosyVoice 的语音合成技术,可以生成具有高表现力的有声读物,提供丰富的听觉体验。

数据统计

相关导航

EMO

EMO

EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说,EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件(例如说话、唱歌的声音),EMO就能够根据音频内容生成一个生动的视频,视频中的人物会展现出丰富的面部表情和多变的头部动作,仿佛照片中的人物正在唱你所制定的语言或歌曲。
Mini-Gemini

Mini-Gemini

Mini-Gemini是一个简单而有效的框架,用于增强多模态视觉语言模型(VLMs),由中国香港中文大学和 SmartMore 的研究人员共同推出。Mini-Gemini支持一系列密集和MoE大型语言模型(LLMs),从2B到34B。为了增强视觉token,该框架建议在不增加视觉token数量的情况下,利用额外的视觉编码器进行高分辨率细化。同时,Mini-Gemini还构建了一个高质量的数据集,以促进精确的图像理解和基于推理的生成,从而扩大当前VLM的操作范围。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...