// Popular Articles
PulseBench-Tab: Benchmark Mới Cho Table Extraction Đa Ngôn Ngữ Vừa Được Open-Source
Pulse AI vừa mở mã nguồn PulseBench-Tab — benchmark frontier cho table extraction với 1.820 bảng được human-annotate trên 9 ngôn ngữ, kèm metric T-LAG đánh giá cả structure lẫn nội dung trong một con số duy nhất. Pulse Ultra 2 dẫn đầu leaderboard với 0.9347, bỏ xa Gemini 3.1 (0.8155) và các agentic pipeline như LlamaParse, Reducto.
dots.ocr: A 1.7B Vision-Language Model That Beats GPT-4o at Document Parsing
rednote-hilab's dots.ocr packs SOTA OmniDocBench performance into a 1.7B-parameter VLM, outperforming Qwen2-VL-72B and GPT-4o on key OCR benchmarks while running on a single GPU.
OCRmyPDF: CLI open-source biến PDF scan thành tài liệu searchable mà không làm hỏng ảnh gốc
OCRmyPDF (v17.4.1, 33.3k sao GitHub) là công cụ dòng lệnh chuyên thêm lớp OCR ẩn vào PDF scan, xuất PDF/A chuẩn lưu trữ, giữ nguyên độ phân giải ảnh, và thường cho file nhỏ hơn bản gốc. Battle-tested trên hàng triệu PDF, hỗ trợ 100+ ngôn ngữ qua Tesseract, cắm thêm được EasyOCR / PaddleOCR / Apple Vision.