// Popular Articles

#confidential-ai
#4602025-10-13

Phala tăng tốc vLLM loading trong GPU TEE lên 32 lần — và vì sao đây là mảnh ghép cuối cho confidential AI

Inference trong GPU TEE chỉ overhead <7%. Nhưng cold-start thì kinh khủng — tải một model 70B có thể mất vài phút vì bounce buffer encrypt bằng CPU. Phala vừa nén con số đó xuống 32 lần.

phala-networkgpu-teevllm
7 phút đọc