热门

FireRedASR

1年前发布 26 00

FireRedASR是一款由FireRedTeam开发的开源工业级自动语音识别（ASR）模型，支持普通话、中文方言和英语。它在公开的普通话 ASR 基准测试中取得了新的最优结果，并且在歌词识别方面表现出色。

收录时间：

2025-02-18

AI大模型 AI工具 # FireRedASR下载 # 开源语音识别工具 # 自动语音识别模型

FireRedASR

FireRedASR

FireRedASR是一款由FireRedTeam开发的开源工业级自动语音识别（ASR）模型，支持普通话、中文方言和英语。它在公开的普通话 ASR 基准测试中取得了新的最优结果，并且在歌词识别方面表现出色。

主要特点

多模型支持：FireRedASR 包括两个变体：FireRedASR-LLM 和 FireRedASR-AED。FireRedASR-LLM 采用编码器-适配器-大型语言模型 (LLM) 架构，旨在实现端到端的语音互动。FireRedASR-AED 采用注意力机制的编码器-解码器 (AED) 架构，旨在平衡高性能和计算效率。
高性能：在公开的普通话基准测试中，FireRedASR-LLM (8.3B 参数) 的平均字符错误率 (CER) 为 3.05%，超过最新的最优结果。 FireRedASR-AED (1.1B 参数) 的平均 CER 为 3.18%，虽然略低于 FireRedASR-LLM，但仍优于最新的最优模型。
多语言和多任务能力： FireRedASR 在中文方言和英语的 ASR 测试中也表现出色，并在歌词识别方面表现突出。
开源与社区支持： FireRedASR 的模型和推理代码已经开源，用户可以在 GitHub 上获取和使用。

FireRedASR的应用场景

智能语音交互：FireRedASR可以应用于智能语音助手、语音输入法等场景，提供高精度的语音识别服务。
多媒体内容理解：FireRedASR在视频字幕生成、歌词识别等多媒体内容理解场景中表现出色。
日常场景应用：FireRedASR在短视频、直播、语音输入和智能助手等多种日常场景下表现出色，与业内领先的ASR服务提供商和Paraformer-Large相比，CER相对降低23.7%~40.0%。

FireRedASR相关链接：

项目地址：https://github.com/FireRedTeam/FireRedASR
论文地址：https://arxiv.org/abs/2501.14350

数据统计

相关导航

没有相关内容!

暂无评论

您必须登录才能参与评论！

none

暂无评论...