Tất cả bài viết

// Popular Articles

#text-to-speech

#5622025-12-03

Soniox ra mắt Text-to-Speech: $0.70/giờ, 60+ ngôn ngữ, hallucination-free

Soniox vừa công bố Soniox Text-to-Speech vào 23/04/2026 — hoàn tất cú chuyển mình từ công ty STT thành voice platform đầy đủ. $0.70/giờ giọng nói, 60+ ngôn ngữ chất lượng bản ngữ, không hallucinate, phát âm đúng số điện thoại, tên riêng và chuyển ngôn ngữ giữa câu.

sonioxtext-to-speechvoice-ai

6 phút đọc

#5292025-11-16

Gemini 3.1 Flash TTS: How Audio Tags Turn Text-to-Speech Into Directed Performance

Google's new Gemini 3.1 Flash TTS ships with 200+ inline audio tags, 30 voices, and 70+ languages. Here's what the tags do, how to prompt them, and where the model actually fits.

gemini-3-1text-to-speechgoogle-ai

7 phút đọc

#3272025-08-07

StepAudio 2.5 TTS: Điều khiển cảm xúc giọng đọc bằng câu mô tả, không cần preset

StepFun vừa ra mắt StepAudio 2.5 TTS ngày 16/04/2026 — TTS đầu tiên bỏ tag SSML, cho phép mô tả cảm xúc, nhịp điệu, hơi thở bằng ngôn ngữ tự nhiên. Clone giọng từ 3 giây audio, giữ full timbre + emotion control. Cùng ngày Google tung Gemini 3.1 Flash TTS — ngành TTS chính thức chuyển từ 'chọn tag' sang 'mô tả yêu cầu'.

stepaudiostepfuntext-to-speech

7 phút đọc

#3002025-07-25

VoxCPM 2: describe a voice, get a voice — open-source TTS kills the preset

OpenBMB's VoxCPM 2 turns a plain-text description into a voice — no reference audio, no preset list. 2B params, 30 languages, 48 kHz, Apache-2.0. Here is why it changes the TTS game.

voxcpm-2openbmbopen-source-tts

6 phút đọc

#582025-03-25

Grok Voice, TTS & STT API: Rẻ nhất thị trường, đang viết lại luật chơi voice AI

xAI vừa hoàn tất bộ ba Voice Agent + TTS + STT API: $0.05/phút (Voice), $4.20/1M ký tự (TTS), $0.10/giờ (STT batch) — đồng thời dẫn đầu Big Bench Audio với 92.3% accuracy. Đây là cú đánh trực diện vào OpenAI Realtime, ElevenLabs và Deepgram.

grok-voicexaispeech-to-text

7 phút đọc

#522025-03-22

MOSS-TTS-Nano: Open TTS 100M params chạy local, 48kHz stereo, không cần GPU

OpenMOSS vừa thả model TTS 0.1B params Apache-2.0, streaming realtime trên CPU 4-core, 48kHz stereo, 20 ngôn ngữ. Bản ONNX mới chạy mượt trên 1 core MacBook Air M4. Đây là bước ngoặt cho on-device voice AI.

moss-tts-nanoopenmossopen-source-tts

7 phút đọc