// Popular Articles
Soniox ra mắt Text-to-Speech: $0.70/giờ, 60+ ngôn ngữ, hallucination-free
Soniox vừa công bố Soniox Text-to-Speech vào 23/04/2026 — hoàn tất cú chuyển mình từ công ty STT thành voice platform đầy đủ. $0.70/giờ giọng nói, 60+ ngôn ngữ chất lượng bản ngữ, không hallucinate, phát âm đúng số điện thoại, tên riêng và chuyển ngôn ngữ giữa câu.
Gemini 3.1 Flash TTS: How Audio Tags Turn Text-to-Speech Into Directed Performance
Google's new Gemini 3.1 Flash TTS ships with 200+ inline audio tags, 30 voices, and 70+ languages. Here's what the tags do, how to prompt them, and where the model actually fits.
StepAudio 2.5 TTS: Điều khiển cảm xúc giọng đọc bằng câu mô tả, không cần preset
StepFun vừa ra mắt StepAudio 2.5 TTS ngày 16/04/2026 — TTS đầu tiên bỏ tag SSML, cho phép mô tả cảm xúc, nhịp điệu, hơi thở bằng ngôn ngữ tự nhiên. Clone giọng từ 3 giây audio, giữ full timbre + emotion control. Cùng ngày Google tung Gemini 3.1 Flash TTS — ngành TTS chính thức chuyển từ 'chọn tag' sang 'mô tả yêu cầu'.
VoxCPM 2: describe a voice, get a voice — open-source TTS kills the preset
OpenBMB's VoxCPM 2 turns a plain-text description into a voice — no reference audio, no preset list. 2B params, 30 languages, 48 kHz, Apache-2.0. Here is why it changes the TTS game.
Grok Voice, TTS & STT API: Rẻ nhất thị trường, đang viết lại luật chơi voice AI
xAI vừa hoàn tất bộ ba Voice Agent + TTS + STT API: $0.05/phút (Voice), $4.20/1M ký tự (TTS), $0.10/giờ (STT batch) — đồng thời dẫn đầu Big Bench Audio với 92.3% accuracy. Đây là cú đánh trực diện vào OpenAI Realtime, ElevenLabs và Deepgram.
MOSS-TTS-Nano: Open TTS 100M params chạy local, 48kHz stereo, không cần GPU
OpenMOSS vừa thả model TTS 0.1B params Apache-2.0, streaming realtime trên CPU 4-core, 48kHz stereo, 20 ngôn ngữ. Bản ONNX mới chạy mượt trên 1 core MacBook Air M4. Đây là bước ngoặt cho on-device voice AI.