FireRedASR

2周前发布 3 00

FireRedASR是一款由FireRedTeam开发的开源工业级自动语音识别(ASR)模型,支持普通话、中文方言和英语。它在公开的普通话 ASR 基准测试中取得了新的最优结果,并且在歌词识别方面表现出色。

收录时间:
2025-02-18
FireRedASRFireRedASR
FireRedASR

FireRedASR是一款由FireRedTeam开发的开源工业级自动语音识别(ASR)模型,支持普通话、中文方言和英语。它在公开的普通话 ASR 基准测试中取得了新的最优结果,并且在歌词识别方面表现出色。

主要特点

  • 多模型支持:FireRedASR 包括两个变体:FireRedASR-LLM 和 FireRedASR-AED。FireRedASR-LLM 采用编码器-适配器-大型语言模型 (LLM) 架构,旨在实现端到端的语音互动。FireRedASR-AED 采用注意力机制的编码器-解码器 (AED) 架构,旨在平衡高性能和计算效率。
  • 高性能: 在公开的普通话基准测试中,FireRedASR-LLM (8.3B 参数) 的平均字符错误率 (CER) 为 3.05%,超过最新的最优结果。 FireRedASR-AED (1.1B 参数) 的平均 CER 为 3.18%,虽然略低于 FireRedASR-LLM,但仍优于最新的最优模型。
  • 多语言和多任务能力: FireRedASR 在中文方言和英语的 ASR 测试中也表现出色,并在歌词识别方面表现突出。
  • 开源与社区支持: FireRedASR 的模型和推理代码已经开源,用户可以在 GitHub 上获取和使用。

FireRedASR的应用场景

  • 智能语音交互:FireRedASR可以应用于智能语音助手、语音输入法等场景,提供高精度的语音识别服务。
  • 多媒体内容理解:FireRedASR在视频字幕生成、歌词识别等多媒体内容理解场景中表现出色。
  • 日常场景应用:FireRedASR在短视频、直播、语音输入和智能助手等多种日常场景下表现出色,与业内领先的ASR服务提供商和Paraformer-Large相比,CER相对降低23.7%~40.0%。

FireRedASR相关链接:

  • 项目地址:https://github.com/FireRedTeam/FireRedASR
  • 论文地址:https://arxiv.org/abs/2501.14350

数据统计

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...