Tag: #production-ai

1 bài viết

#1632026-03-03

Kỷ Nguyên Multi-Agent: Building the Model Không Còn Là Thách Thức Khó Nhất

Agentic RAG tốn 3-10x token và 2-5x latency so với one-pass RAG, đẩy latency p95 lên tới 10-15 giây. Model performance giảm sau 32.000 tokens dù context window có thể lên đến hàng triệu. Tối ưu KV-cache giảm chi phí 10x nhờ tỷ lệ 100:1 input-to-output token. Context engineering đang thay thế prompt engineering làm kỹ năng cốt lõi của AI developer.

multi-agentcontext-engineeringrag

6 phút đọc