Qwen開源了具有多語言功能的先進ASR和強制對齊模型


Qwen開源了具有多語言功能的先進ASR和強制對齊模型

阿里巴巴雲 宣布已將其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型開源,為語音識別和強制對齊提供高級工具。 

Qwen3-ASR 系列包括兩個一體化模型,即 Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B,它們利用大規模語音資料和 Qwen3-Omni 基礎模型,支援 52 種語言和口音的語言識別和轉錄。 

內部測試表明,1.7B 模型在開源 ASR 系統中實現了最先進的準確率,而 0.6B 版本則兼顧了性能和效率,能夠在 1 秒內以高並發性轉錄 2,000 秒的語音。 

Qwen3-ForcedAligner-0.6B 模型採用非自回歸 LLM 方法對 11 種語言的文字和語音進行對齊,在速度和準確性方面均優於領先的力對齊解決方案。 

阿里雲也發布了一個基於 Apache 2.0 許可的綜合推理框架,支援串流處理、批次處理、時間戳預測和微調,旨在加速音訊理解領域的研究和實際應用。

Qwen開源了具有多語言功能的先進ASR和強制對齊模型

Qwen3-ASR 和 Qwen3-ForcedAligner 模型展現出領先的準確性和效率

阿里雲發布了其 Qwen3-ASR 和 Qwen3-ForcedAligner 模型的效能測試結果,證明其在各種語音辨識任務中均具有領先的準確率和效率。 

Qwen3-ASR-1.7B 模型在開源系統中取得了最先進的成果,在英語、多語言和漢語方言識別(包括粵語和 22 種區域變體)方面優於商業 API 和其他開源模型。 

即使在信噪比低、兒童或老年人語音、甚至歌聲轉錄等具有挑戰性的聲學條件下,它也能保持可靠的準確性,在中文中平均詞錯誤率為 13.91%,在英語中(有背景音樂)平均詞錯誤率為 14.60%。

較小的 Qwen3-ASR-0.6B 兼顧了準確性和效率,在高並發性下可實現高吞吐量和低延遲,能夠在 128 並發性的在線非同步模式下轉錄長達 5 小時的語音。 

同時,Qwen3-ForcedAligner-0.6B 的效能優於領先的端到端強制對齊模型,包括 Nemo-Forced-Aligner、WhisperX 和 Monotonic-Aligner,提供更出色的語言覆蓋範圍、時間戳準確性和對各種語音和音訊長度的支援。





Source link

免责声明:本文提供的信息不是交易建议。BlockWeeks.com不对根据本文提供的信息所做的任何投资承担责任。我们强烈建议在做出任何投资决策之前进行独立研究或咨询合格的专业人士。

Like (0)
Mpost的头像Mpost作者
Previous 5小时前
Next 3小时前

相关推荐

发表回复

Please Login to Comment
SHARE
TOP