Tất cả bài viết

// Popular Articles

#vision-language-model

#7852026-03-21

Chandra OCR 2: mô hình OCR 4B mã nguồn mở vượt GPT-4o và Gemini 2.5 Flash

Datalab vừa ra Chandra OCR 2 — mô hình 4B parameters đạt 85.9% trên olmOCR bench (SOTA), hỗ trợ 90+ ngôn ngữ, xử lý handwriting, math LaTeX, bảng phức tạp và biểu đồ. Nhỏ hơn Chandra 1 (9B) một nửa nhưng cao hơn ở mọi hạng mục.

chandra-ocr-2datalabopen-source-ocr

7 phút đọc

#7512026-03-06

Chandra OCR 2: Mô hình OCR open-source 4B đánh bại Gemini, dots.ocr và olmOCR

Datalab vừa phát hành Chandra OCR 2 — mô hình OCR open-weight 4B đạt 85.9% trên olmOCR bench (SOTA), nhỏ hơn nửa so với v1 nhưng chính xác hơn. Hỗ trợ 90+ ngôn ngữ, bảng phức tạp, viết tay, công thức LaTeX, và caption ảnh tự động.

chandra-ocr-2datalabopen-source-ocr

7 phút đọc

#4042025-09-15

Qwen3.6-27B ra mắt: mô hình dense đa phương thức mạnh hơn cả bản MoE 35B

Alibaba vừa open-source Qwen3.6-27B dưới Apache 2.0 — một mô hình dense 27B tích hợp sẵn vision encoder, xử lý ảnh/video/text trong một checkpoint duy nhất, và đánh bại cả bản MoE 35B-A3B ở gần như mọi benchmark coding, reasoning lẫn VLM.

qwenqwen3-6open-source-llm

7 phút đọc

#2572025-07-03

dots.ocr: A 1.7B Vision-Language Model That Beats GPT-4o at Document Parsing

rednote-hilab's dots.ocr packs SOTA OmniDocBench performance into a 1.7B-parameter VLM, outperforming Qwen2-VL-72B and GPT-4o on key OCR benchmarks while running on a single GPU.

dots-ocrvision-language-modeldocument-parsing

7 phút đọc

#2162025-06-12

Moondream Lens: Fine-Tune Vision AI Với 20 Ảnh, Đánh Bại GPT-5.4 Trong 54 Phút

Moondream vừa ra mắt Lens — dịch vụ fine-tune chính thức đưa độ chính xác của model vision về production-ready chỉ trong vài giờ. Trường hợp NBA: F1 tăng từ 0.28 lên 0.79, tốn $16.89 và 54 phút, vượt ChatGPT. Không cần GPU, chỉ cần ~20 ảnh.

moondreamfine-tuningvision-language-model

7 phút đọc