// Popular Articles

#sre
#6182026-01-01

SLA vs SLO vs SLI: ba khái niệm dễ nhầm, và vì sao đặt bằng nhau là tự sát

SLI đo, SLO nhắm, SLA hứa. Đặt SLO = SLA nghĩa là giây phút bạn miss mục tiêu nội bộ cũng là giây phút hợp đồng khách hàng bị vi phạm. Đây là cách ba con số này khác nhau, cách tính error budget, và những cạm bẫy thường gặp.

sresla-slo-slireliability
7 phút đọc
#5462025-11-25

API dưới 100ms: kiến trúc tạo ra tốc độ, văn hóa giữ nó sống

Sub-100ms không phải trò tối ưu cuối dự án. Đó là kết quả thiết kế: latency budget, async fan-out, layered caching, circuit breakers và văn hóa đội coi p99 như uptime. Tổng hợp từ InfoQ 2026 + kinh nghiệm production.

api-performancep99-latencyobservability
8 phút đọc
6 one-liner eBPF cứu ca trực on-call lúc 3 giờ sáng
#4002025-09-13

6 one-liner eBPF cứu ca trực on-call lúc 3 giờ sáng

Pager kêu 3h sáng, service flapping, dashboard không thấy gì lạ. Đây là 6 lệnh bcc-tools kernel-native giúp bạn tìm ra thủ phạm trong vài phút — mà Grafana không bao giờ thấy.

ebpfbcc-toolssre
7 phút đọc
#2732025-07-11

Codex sự cố 10 phút: AI giúp sửa AI, nhưng insight đến từ con người

Ngày 21/4/2026, OpenAI Codex gặp sự cố ngắn ~10 phút. Thibault Sottiaux xác nhận Codex tự giúp điều tra — nhưng chính kỹ sư con người mới là người đưa ra insight quyết định. Một chi tiết nhỏ, nhưng phản ánh đúng vị trí thực của AI-assisted ops năm 2026.

openaicodexai-ops
5 phút đọc