#1222025-04-26
FlashDrive: Reasoning VLA cho xe tự lái chạy real-time — 716ms xuống 159ms, zero accuracy loss
Z Lab vừa công bố FlashDrive, framework co-design kéo latency Vision-Language-Action model từ 716ms xuống 159ms trên RTX PRO 6000 (tối đa 5.7× trên RTX 4090), giữ nguyên accuracy. Bốn kỹ thuật ghép lại: streaming inference, DFlash speculative reasoning, adaptive-step flow matching, ParoQuant W4A8.