LatentSync: ByteDance Open-Source Model Lip-Sync Tốt Nhất Hiện Tại
LatentSync của ByteDance đạt 94% SyncNet accuracy trên HDTF, vượt qua Wav2Lip, DINet, MuseTalk về mọi chỉ số chất lượng. Chỉ cần 8GB VRAM để chạy inference, hoàn toàn miễn phí và open-source. Dựa trên Stable Diffusion 1.5 với cơ chế TREPA độc quyền giúp giữ temporal consistency mà không làm giảm độ chính xác lip-sync.
WhisperX: Tăng tốc Whisper 70 lần, timestamp từng từ và nhận diện người nói
WhisperX đạt tốc độ 70x real-time với large-v2 nhờ batched inference và VAD Cut & Merge, nhanh hơn Whisper gốc 11.8 lần trên benchmark chính thức. Timestamp word-level chính xác ±50ms, so với ±500ms của Whisper - cải thiện 10 lần. DER ~8% trong điều kiện chuẩn, tích hợp pyannote-audio để phân biệt từng người nói. Miễn phí hoàn toàn, BSD-2-Clause license, 21.8k GitHub stars.