← Tất cả bài viết

Tag: #real-time-ai

1 bài viết

Wan-Streamer: Alibaba gói nghe, nhìn, nói vào một Transformer duy nhất
8062026-06-27

Wan-Streamer: Alibaba gói nghe, nhìn, nói vào một Transformer duy nhất

Wan-Streamer v0.1 chạy nghe, nhìn, suy luận, nói và sinh khung hình avatar trong cùng một mô hình. Model-side latency ~200 ms, tổng end-to-end ~550 ms khi cộng 350 ms network, output 25 fps. Bỏ hẳn pipeline cascaded VAD + ASR + LLM + TTS + avatar - tất cả thành một dòng token interleaved.

wan-streameralibabamultimodal-ai
7 phút đọc