// Popular Articles
Chandra OCR 2: mô hình OCR 4B mã nguồn mở vượt GPT-4o và Gemini 2.5 Flash
Datalab vừa ra Chandra OCR 2 — mô hình 4B parameters đạt 85.9% trên olmOCR bench (SOTA), hỗ trợ 90+ ngôn ngữ, xử lý handwriting, math LaTeX, bảng phức tạp và biểu đồ. Nhỏ hơn Chandra 1 (9B) một nửa nhưng cao hơn ở mọi hạng mục.
PulseBench-Tab: Benchmark Mới Cho Table Extraction Đa Ngôn Ngữ Vừa Được Open-Source
Pulse AI vừa mở mã nguồn PulseBench-Tab — benchmark frontier cho table extraction với 1.820 bảng được human-annotate trên 9 ngôn ngữ, kèm metric T-LAG đánh giá cả structure lẫn nội dung trong một con số duy nhất. Pulse Ultra 2 dẫn đầu leaderboard với 0.9347, bỏ xa Gemini 3.1 (0.8155) và các agentic pipeline như LlamaParse, Reducto.
NanoIndex: Vectorless RAG That Actually Works on 200-Page Documents
Nanonets just open-sourced NanoIndex, an agentic RAG framework with no vector DB, no embeddings, no chunk tuning — powered by the #1 OCR model (OCR-3). It hits 94.5% on FinanceBench and 96% on legal docs, with pixel-level citations down to the bounding box.