#4602025-10-13
Phala tăng tốc vLLM loading trong GPU TEE lên 32 lần — và vì sao đây là mảnh ghép cuối cho confidential AI
Inference trong GPU TEE chỉ overhead <7%. Nhưng cold-start thì kinh khủng — tải một model 70B có thể mất vài phút vì bounce buffer encrypt bằng CPU. Phala vừa nén con số đó xuống 32 lần.