Idea-2-3D
Idea-2-3D 是一个3D 模型生成框架,能够从多模态输入(如文本、图像和 3D 模型)中生成高质量的 3D 模型。该框架由三个基于大型多模态模型(LMM)的智能代理组成,分别负责生成提示、选择模型和反馈反映。通过这些代理的协作和批评循环,Idea-2-3D 能够自动生成与输入高度一致的 3D 模型。
FunAudioLLM 是由阿里巴巴通义团队开发的旨在增强人类与大型语言模型(LLMs)之间的自然语音交互的框架。其核心包括两个创新模型:SenseVoice 和 CosyVoice。SenseVoice 提供高精...
FunAudioLLM 是由阿里巴巴通义团队开发的旨在增强人类与大型语言模型(LLMs)之间的自然语音交互的框架。其核心包括两个创新模型:SenseVoice 和 CosyVoice。SenseVoice 提供高精度的多语言语音识别、情绪识别和音频事件检测,支持超过 50 种语言,并具有极低的延迟。CosyVoice 则专注于自然语音生成,支持多语言、音色和情绪控制,能够进行零样本语音生成、跨语言语音克隆和指令遵循。FunAudioLLM 的应用包括语音翻译、情感语音聊天、互动播客和表现力有声书等,推动语音交互技术的边界。
FunAudioLLM – 阿里通义开源的音频生成大模型
项目地址:
1、SenseVoice:
2、CosyVoice:
这些功能使 FunAudioLLM 在语音翻译、情感语音聊天、互动播客和表现力有声书等应用中表现出色。
FunAudioLLM 有多个应用场景,主要包括: