Tất cả bài viết

// Popular Articles

#nvidia-h100

#4602025-10-13

Phala tăng tốc vLLM loading trong GPU TEE lên 32 lần — và vì sao đây là mảnh ghép cuối cho confidential AI

Inference trong GPU TEE chỉ overhead <7%. Nhưng cold-start thì kinh khủng — tải một model 70B có thể mất vài phút vì bounce buffer encrypt bằng CPU. Phala vừa nén con số đó xuống 32 lần.

phala-networkgpu-teevllm

7 phút đọc