// Popular Articles
DevOps vs MLOps vs LLMOps: 3 ops, 3 bài toán khác nhau — đừng lấy playbook DevOps áp vào app LLM
DevOps kiểm tra code chạy hay không. MLOps canh data drift và model decay. LLMOps thì phải soi hallucination, token cost, bias và human feedback — và evaluation loop feedback ngược cả 3 đường prompt/RAG/fine-tune cùng lúc. Không còn là linear pipeline nữa.
Google đập vỡ "bức tường latency": TPU 8t và 8i — hai con chip cho kỷ nguyên AI agent
Tại Cloud Next 2026, Google tách thế hệ TPU thứ 8 thành hai con chip riêng: 8t cho training, 8i cho inference. Pod 9.600 chip, 121 FP4 exaflops, SRAM on-chip gấp 3 lần — và Anthropic vừa cam kết 3,5 GW compute cho Google.
Exa Deep Max: Agentic Search SOTA với Latency Nhanh Hơn 20 Lần
Exa vừa công bố Deep Max — endpoint agentic search kết hợp frontier LLM với hàng chục lời gọi Exa Search song song, đạt state-of-the-art trên HLE-Search, FRAMES, Deep Search QA, với độ trễ nhanh hơn đối thủ tới 92 lần.
CVE-2026-5760: SGLang dính RCE không cần auth vì render Jinja2 chat template không sandbox
Lỗ hổng CVSS 9.8 trong SGLang cho phép attacker RCE qua file GGUF độc. Gốc rễ: /v1/rerank dùng jinja2.Environment() thay vì ImmutableSandboxedEnvironment. PoC đã public, vendor chưa phản hồi.