TL;DR

  • RAG = LLM + bộ nhớ ngoài. Thay vì retraining tốn kém, bạn kết nối model với dữ liệu thực tế.
  • 6 giai đoạn: Keyword → Semantic → Hybrid → LLM tích hợp → Naive RAG → Agentic RAG (hiện tại).
  • Agentic RAG không còn chạy pipeline tuyến tính - nó tự lập kế hoạch, tự đánh giá, tự retry cho đến khi tự tin vào kết quả.
  • Chi phí thực: 3-10x token, latency p50 tăng từ 1-2s lên 4-8s. Xứng đáng với domain phức tạp, không xứng đáng với FAQ bot.
  • Stack 2026: LangGraph + BM25 + dense embeddings + Voyage AI reranker + Ragas evaluation.

RAG là gì - giải thích trong 60 giây

LLM biết rất nhiều - nhưng kiến thức bị đóng băng tại thời điểm training. Hỏi về sự kiện tháng trước? Dữ liệu nội bộ của công ty bạn? Model không biết.

RAG (Retrieval-Augmented Generation) giải quyết điều này bằng cách cho LLM một bộ nhớ ngoài có thể tìm kiếm. Khi bạn đặt câu hỏi, hệ thống:

  1. Retrieve - lấy đúng đoạn dữ liệu liên quan từ database
  2. Augment - nhét vào prompt cùng câu hỏi của bạn
  3. Generate - LLM trả lời dựa trên context thực tế đó

Kết quả: không cần retrain, dữ liệu luôn cập nhật, có thể cite nguồn. Đây là lý do RAG trở thành kiến trúc mặc định của hầu hết ứng dụng AI enterprise.

Con đường tiến hóa qua 6 giai đoạn

Corrective RAG - sơ đồ kiến trúc RAG với vòng phản hồi

Giai đoạn 1 - Keyword Retrieval: Inverted index đơn giản. Tìm kiếm từ khóa không hiểu ngữ cảnh - "Python help" trả về cả hướng dẫn lập trình lẫn bài về nuôi rắn.

Giai đoạn 2 - Semantic Search: Văn bản được chuyển thành vector cao chiều. Model học được rằng "coffee" và "espresso" liên quan nhau dù không cùng từ khóa.

Giai đoạn 3 - Hybrid Retrieval: Kết hợp độ chính xác của keyword search với khả năng hiểu ngữ nghĩa của semantic search. Tốt nhất cả hai thế giới.

Giai đoạn 4 - LLM Integration: LLM bắt đầu tham gia, nhưng vẫn bị giới hạn bởi training data tĩnh. Bước đệm quan trọng.

Giai đoạn 5 - Naive/Simple RAG: Tài liệu được embed vào vector database. LLM truy vấn khi cần và trả lời dựa trên context thực. Cải thiện đáng kể nhưng pipeline còn tuyến tính và dễ gãy.

Giai đoạn 6 - Agentic RAG (2025-nay): Không còn là pipeline cố định. Agent tự quyết định khi nào cần retrieve, retrieve từ đâu, đánh giá kết quả có đủ tin cậy không, và retry nếu cần. Hoạt động như một nhóm chuyên gia tự kiểm tra chéo nhau.

Agentic RAG - bước nhảy lớn nhất từ trước đến nay

Agentic RAG multi-agent architecture - Meta-Agent điều phối Financial Data Agent và Market Intelligence Agent

Agentic RAG nhúng AI agents vào pipeline RAG, tận dụng 4 design pattern cốt lõi: Reflection (tự đánh giá output), Planning (lập kế hoạch multi-step), Tool Use (gọi API, SQL, web), và Multi-agent Collaboration (nhiều agent phối hợp).

5 pattern phổ biến nhất trong production 2026:

  • Self-RAG: Model tự emit "reflection token" quyết định có cần retrieve không và output có được hỗ trợ bởi nguồn không.
  • CRAG (Corrective RAG): Đánh giá độ tin cậy của retrieval. Nếu thấp - tự động fallback sang web search hoặc trigger retry.
  • Adaptive RAG: Classifier phân loại độ khó của query. Query đơn giản bỏ qua agent hoàn toàn - tiết kiệm token và latency.
  • ReAct: Vòng lặp Reason-Act qua nhiều tool - vector DB, SQL, web search, MCP servers - cho đến khi đủ context.
  • Multi-hop Decomposition: Câu hỏi phức tạp được tách thành các sub-query độc lập, chạy song song, tổng hợp lại.

Con số thực tế: Traditional vs Agentic

DimensionTraditional RAGAgentic RAG
Latency p501-2 giây4-8 giây
Token multiplier1x3-10x
Retrieval calls/query12-6
Chi phí (10K queries/ngày)~$500/ngày$700-$5,000/ngày
Chi phí xây dựng$8K-$25K (3-8 tuần)$25K-$50K (8-16 tuần)

Production targets đáng nhớ: Faithfulness ≥ 0.9, Answer relevancy ≥ 0.85, Context precision ≥ 0.8. Dưới ngưỡng này - hệ thống chưa production-ready.

Ai nên dùng Agentic RAG - và ai không nên

Xứng đáng với chi phí:

  • So sánh hợp đồng pháp lý phức tạp qua nhiều tài liệu
  • Hỗ trợ quyết định y tế/tài chính (high-stakes, cần accuracy cao)
  • Multi-step research tổng hợp thông tin từ nhiều nguồn
  • Query mơ hồ cần clarification trước khi retrieve

Traditional RAG vẫn tốt hơn:

  • Customer service FAQ bot
  • Tra cứu tài liệu sản phẩm
  • Bất kỳ hệ thống nào yêu cầu latency < 3 giây

Tóm lại: "Agentic RAG tốn 3-10x token và thêm 2-5x latency. Nó xứng đáng với câu hỏi multi-hop, domain cao rủi ro - không xứng đáng với single-fact lookup."

Stack 2026 và hướng tiếp theo

Tech stack chuẩn trong production agentic RAG hiện tại:

  • Orchestration: LangGraph (stateful control) hoặc LlamaIndex Workflows (retrieval-heavy)
  • Retrieval: BM25 + dense embeddings → cross-encoder rerank → optional GraphRAG
  • Embeddings: text-embedding-3-large (general) hoặc voyage-3 (domain-critical)
  • Reranking: Voyage AI rerank-2.5 (dẫn đầu) hoặc Cohere Rerank v3.5
  • Evaluation: Ragas (per-query metrics) + Arize Phoenix hoặc Langfuse (trajectory tracing)

Tháng 12/2025, Anthropic donate Model Context Protocol (MCP) cho Linux Foundation - OpenAI và Google cùng adopt. MCP đang trở thành giao thức chuẩn để agent tương tác với retrieval tools.

Nhìn về phía trước: RAG đang biến thành "Context Engine" - hạ tầng thống nhất phục vụ mọi nhu cầu context của LLM: kiến thức domain, mô tả tool, lịch sử hội thoại. Không còn là một pattern nữa - mà là nền tảng.

Nguồn: Frank's World of Data Science, arXiv 2501.09136 - Agentic RAG Survey, MarsDevs 2026 Production Guide, RAGFlow 2025 Review.