Tất cả bài viết

// Popular Articles

#asr

#6202026-01-02

Xiaomi's MiMo-V2.5-ASR: 8B Open-Source Speech Model Beats Whisper by 23% — Speaks Cantonese, Wu, Hokkien, Sings Too

Xiaomi just open-sourced MiMo-V2.5-ASR, an 8B-parameter end-to-end speech recognition model that posts 5.73 average WER on the Open ASR Leaderboard — ahead of Whisper-large-v3 (7.44), Seed-ASR 2.0 (8.09), and on par with Qwen3-ASR-1.7B. Native support for Wu, Cantonese, Hokkien, Sichuanese; no-tag Chinese–English code-switching; and lyrics transcription that actually works. Weights + code on Hugging Face, GitHub, and ModelScope, Apache-2.0.

mimo-v2-5-asrxiaomiopen-source-speech-recognition

7 phút đọc

#1822025-05-26

Sarvam AI open-source hai framework đánh giá ASR tiếng Ấn: tại sao WER đã hết thời với 22 ngôn ngữ Indic

Sarvam AI vừa công bố hai framework mã nguồn mở cùng bộ hướng dẫn 22 ngôn ngữ để đánh giá ASR tiếng Ấn. WER và CER vốn sinh ra cho tiếng Anh và liên tục phạt sai khi gặp code-mixing, biến thể script hay register khác nhau. Bộ bốn chỉ số mới LLM-WER, LLM-CER, Intent Score và Entity Preservation Score dùng LLM làm giám khảo, cho bức tranh sát thực tế hơn về chất lượng ASR.

sarvam-aispeech-recognitionindic-languages

7 phút đọc

#1572025-05-14

Fun-ASR 1.5 ra mắt: 30 ngôn ngữ, code-switching tự động, text production-ready

Tongyi Lab (Alibaba) chính thức phát hành Fun-ASR 1.5 — bản update lớn của mô hình nhận dạng giọng nói end-to-end với 3 trụ cột: phủ 30 ngôn ngữ, tự động chuyển ngôn ngữ giữa câu, và output văn bản có punctuation + định dạng số/ngày/tiền tệ sẵn dùng.

fun-asralibaba-tongyispeech-recognition

7 phút đọc