TL;DR

Blockify là một data preprocessing engine (open-source, do Iternal Technologies phát triển) chạy giữa document parser và vector store. Thay vì chunk văn bản theo độ dài cố định, nó dùng AI chuyển mỗi đoạn thành IdeaBlock - một đơn vị kiến thức 2-3 câu, kèm theo Critical Question, Trusted Answer và metadata (version, clearance level, entity type). Pipeline gồm 2 stage: Ingest (raw text → IdeaBlocks) và Distill (dedup + merge duplicate thành canonical unit). Kết quả: corpus giảm 40x, token per query giảm 3x, vector search chính xác hơn 2.29x.

So sánh Naive RAG vs Blockify IdeaBlock pipeline

Vấn đề thật sự của RAG truyền thống

Standard RAG chunk văn bản theo độ dài cố định (thường 1,000-2,000 ký tự), cắt ngang ranh giới tự nhiên của văn bản. Một chunk thường chứa thông tin từ nhiều chủ đề khác nhau - chỉ 25-40% là liên quan đến query của người dùng, phần còn lại là vector noise.

Nghiêm trọng hơn: embedding model mã hóa chunk cũ và chunk mới theo cùng một cách. Không có tín hiệu nào cho biết phiên bản nào là chính thống, cái nào là draft lỗi thời. Khi retrieval lấy cả hai, LLM pha trộn chúng và ảo giác. Vấn đề không nằm ở retrieval - nó nằm ở representation. Đơn vị dữ liệu sai, và fix phải xảy ra trước retrieval, ở tầng dữ liệu.

Blockify giải quyết đúng điểm này.

IdeaBlock hoạt động như thế nào

Engine sit between document parser và vector store. Pipeline gồm 2 stage chính:

  • Ingest: Context-aware splitter tìm natural breaks (paragraph boundary, section break, topic shift). Một LLM chuyên dụng xử lý từng segment và trích xuất IdeaBlock - khoảng 2-3 câu, chứa: tên concept, Critical Question, Trusted Answer, và metadata (entity name, entity type, version, clearance level). Mỗi block còn kèm cặp Q&A giúp embedding của query và block nằm gần nhau trong vector space - tương tự HyDE nhưng thực hiện ở tầng dữ liệu với data đã validate thay vì patch ở retrieval.
  • Distill: Model thứ hai cluster các block tương tự ngữ nghĩa trên toàn bộ corpus, merge duplicate thành 1 canonical unit trước khi indexing. Trung bình enterprise có tỉ lệ trùng lặp dữ liệu 15:1 - Distill loại bỏ hoàn toàn vấn đề này.

IdeaBlock được index trả lời một câu hỏi cụ thể thay vì trả về một đoạn văn có thể chứa câu trả lời ở đâu đó bên trong.

Con số quan trọng

Chỉ sốStandard RAGBlockifyCải thiện
Kích thước corpus100%2.5%40x nhỏ hơn
Tokens per query1,5154903.09x giảm
Vector search precisionBaseline+51-52%2.29x chính xác
Aggregate LLM accuracyBaselinelên tới 78x-

Trong benchmark thực tế với tiểu thuyết Dune (425 trang, 200K+ từ) chạy trên Intel Gaudi 2 qua Denvr Cloud: xử lý 202 giây, 5,404 bytes/giây, tăng 40x độ chính xác RAG và 51% precision vector search.

Thử nghiệm trong y tế

Medical whitepaper của Iternal test 9 câu hỏi lâm sàng (DKA, viêm phổi, heart failure, đau đầu red flags...) trên Llama 3.2 3B MLC-LLM Quantized - mô hình chạy hoàn toàn on-device, air-gapped:

  • Trung bình: +261.11% độ chính xác và source fidelity so với standard chunking
  • DKA management: +650% - RAG truyền thống gợi ý "D5W" (dextrose) làm IV dịch đầu tiên - sai nghiêm trọng về mặt lâm sàng; Blockify gợi ý "IV rehydration" đúng phác đồ
  • Pneumonia lab tests: +500%
  • Headache red flags: +250%

Kết luận của whitepaper: "Blockify ingestion is not optional but mandatory for RAG-powered LLMs in medicine."

Tích hợp và triển khai

Blockify compose với các tool RAG phổ biến:

  • LangChain: swap TextSplitter/NodeParser bằng Blockify, IdeaBlock nodes hoạt động bình thường trong pipeline
  • LlamaIndex: tương tự, IdeaBlock nodes tích hợp vào query engine
  • Vector DBs: Milvus, Elastic, Pinecone, Azure AI Search, Zilliz, AWS
  • Intel Xeon: optimized build qua OpenVINO cho production workloads
  • Claude Code skill có trong repo, chạy full Ingest + Distill pipeline với tham chiếu project documentation

Pricing: $0.25/1K tokens (Developer, kèm $400 promo credit); $270/tháng/user (Enterprise). Hỗ trợ Cloud SaaS, Private Cloud (AWS/Azure/GCP), On-premises và Air-gapped.

Nhận xét và tiến trình

Vấn đề Blockify giải quyết - representation quality trước retrieval - là gap thực sự của tất cả RAG pipeline hiện tại. Con số 40x corpus reduction và 3x token savings không chỉ là accuracy metric, nó còn là cost metric: với 1 tỷ query/năm, Blockify tiết kiệm ước tính ~$738,000 API cost (tính trên giá LLAMA 3.3 70B). Roadmap kế tiếp là Self-Healing Datasets - LLM agents tự động draft IdeaBlock updates và route tới SME để approve.

Nguồn: @_avichawla trên X, Blockify Benchmarks - Iternal, Medical Accuracy Case Study.