Blockify và IdeaBlocks: Giảm corpus RAG 40x, tăng độ chính xác y tế 261%

TL;DR

Blockify là một data preprocessing engine (open-source, do Iternal Technologies phát triển) chạy giữa document parser và vector store. Thay vì chunk văn bản theo độ dài cố định, nó dùng AI chuyển mỗi đoạn thành IdeaBlock - một đơn vị kiến thức 2-3 câu, kèm theo Critical Question, Trusted Answer và metadata (version, clearance level, entity type). Pipeline gồm 2 stage: Ingest (raw text → IdeaBlocks) và Distill (dedup + merge duplicate thành canonical unit). Kết quả: corpus giảm 40x, token per query giảm 3x, vector search chính xác hơn 2.29x.

So sánh Naive RAG vs Blockify IdeaBlock pipeline

Vấn đề thật sự của RAG truyền thống

Standard RAG chunk văn bản theo độ dài cố định (thường 1,000-2,000 ký tự), cắt ngang ranh giới tự nhiên của văn bản. Một chunk thường chứa thông tin từ nhiều chủ đề khác nhau - chỉ 25-40% là liên quan đến query của người dùng, phần còn lại là vector noise.

Nghiêm trọng hơn: embedding model mã hóa chunk cũ và chunk mới theo cùng một cách. Không có tín hiệu nào cho biết phiên bản nào là chính thống, cái nào là draft lỗi thời. Khi retrieval lấy cả hai, LLM pha trộn chúng và ảo giác. Vấn đề không nằm ở retrieval - nó nằm ở representation. Đơn vị dữ liệu sai, và fix phải xảy ra trước retrieval, ở tầng dữ liệu.

Blockify giải quyết đúng điểm này.

IdeaBlock hoạt động như thế nào

Engine sit between document parser và vector store. Pipeline gồm 2 stage chính:

Ingest: Context-aware splitter tìm natural breaks (paragraph boundary, section break, topic shift). Một LLM chuyên dụng xử lý từng segment và trích xuất IdeaBlock - khoảng 2-3 câu, chứa: tên concept, Critical Question, Trusted Answer, và metadata (entity name, entity type, version, clearance level). Mỗi block còn kèm cặp Q&A giúp embedding của query và block nằm gần nhau trong vector space - tương tự HyDE nhưng thực hiện ở tầng dữ liệu với data đã validate thay vì patch ở retrieval.
Distill: Model thứ hai cluster các block tương tự ngữ nghĩa trên toàn bộ corpus, merge duplicate thành 1 canonical unit trước khi indexing. Trung bình enterprise có tỉ lệ trùng lặp dữ liệu 15:1 - Distill loại bỏ hoàn toàn vấn đề này.

IdeaBlock được index trả lời một câu hỏi cụ thể thay vì trả về một đoạn văn có thể chứa câu trả lời ở đâu đó bên trong.

Con số quan trọng

Chỉ số	Standard RAG	Blockify	Cải thiện
Kích thước corpus	100%	2.5%	40x nhỏ hơn
Tokens per query	1,515	490	3.09x giảm
Vector search precision	Baseline	+51-52%	2.29x chính xác
Aggregate LLM accuracy	Baseline	lên tới 78x	-

Trong benchmark thực tế với tiểu thuyết Dune (425 trang, 200K+ từ) chạy trên Intel Gaudi 2 qua Denvr Cloud: xử lý 202 giây, 5,404 bytes/giây, tăng 40x độ chính xác RAG và 51% precision vector search.

Thử nghiệm trong y tế

Medical whitepaper của Iternal test 9 câu hỏi lâm sàng (DKA, viêm phổi, heart failure, đau đầu red flags...) trên Llama 3.2 3B MLC-LLM Quantized - mô hình chạy hoàn toàn on-device, air-gapped:

Trung bình: +261.11% độ chính xác và source fidelity so với standard chunking
DKA management: +650% - RAG truyền thống gợi ý "D5W" (dextrose) làm IV dịch đầu tiên - sai nghiêm trọng về mặt lâm sàng; Blockify gợi ý "IV rehydration" đúng phác đồ
Pneumonia lab tests: +500%
Headache red flags: +250%

Kết luận của whitepaper: "Blockify ingestion is not optional but mandatory for RAG-powered LLMs in medicine."

Tích hợp và triển khai

Blockify compose với các tool RAG phổ biến:

LangChain: swap TextSplitter/NodeParser bằng Blockify, IdeaBlock nodes hoạt động bình thường trong pipeline
LlamaIndex: tương tự, IdeaBlock nodes tích hợp vào query engine
Vector DBs: Milvus, Elastic, Pinecone, Azure AI Search, Zilliz, AWS
Intel Xeon: optimized build qua OpenVINO cho production workloads
Claude Code skill có trong repo, chạy full Ingest + Distill pipeline với tham chiếu project documentation

Pricing: $0.25/1K tokens (Developer, kèm $400 promo credit); $270/tháng/user (Enterprise). Hỗ trợ Cloud SaaS, Private Cloud (AWS/Azure/GCP), On-premises và Air-gapped.

Nhận xét và tiến trình

Vấn đề Blockify giải quyết - representation quality trước retrieval - là gap thực sự của tất cả RAG pipeline hiện tại. Con số 40x corpus reduction và 3x token savings không chỉ là accuracy metric, nó còn là cost metric: với 1 tỷ query/năm, Blockify tiết kiệm ước tính ~$738,000 API cost (tính trên giá LLAMA 3.3 70B). Roadmap kế tiếp là Self-Healing Datasets - LLM agents tự động draft IdeaBlock updates và route tới SME để approve.

Nguồn: @_avichawla trên X, Blockify Benchmarks - Iternal, Medical Accuracy Case Study.

Blockify và IdeaBlocks: Giảm corpus RAG 40x, tăng độ chính xác y tế 261%

TL;DR

Vấn đề thật sự của RAG truyền thống

IdeaBlock hoạt động như thế nào

Con số quan trọng

Thử nghiệm trong y tế

Tích hợp và triển khai

Nhận xét và tiến trình

Tiếp tục lướt

DevOps vs MLOps vs LLMOps: 3 ops, 3 bài toán khác nhau — đừng lấy playbook DevOps áp vào app LLM

Exa Highlights: cắt 96% input token cho web agent, 500 token đủ thay 10K token nguyên trang

LiteParse: PDF parser của LlamaIndex đánh bại ML layout bằng một lưới monospace

LiteParse: parser PDF mã nguồn mở của LlamaIndex chạy local, không cần LLM

Gemini Embedding 2 lên GA: một vector space cho text, ảnh, video, audio và PDF