- PaddlePaddle vừa phát hành PaddleOCR 3.5 (21/4/2026) với bộ ba đáng chú ý: PaddleOCR.js chạy PP-OCRv5 trực tiếp trong trình duyệt bằng WebGPU/Wasm, 20 model hỗ trợ backend Hugging Face Transformers, và convert một-click Word/Excel/PPT sang Markdown.
- Data không rời máy, không cần server, sẵn sàng cho kỷ nguyên AI agent.
TL;DR
PaddleOCR 3.5 (phát hành 21/4/2026) đưa OCR chất lượng production vào thẳng trình duyệt. Ba thay đổi lớn: PaddleOCR.js — SDK browser chính thức chạy PP-OCRv5 với WebGPU + Wasm, không cần server; 20 model tích hợp sâu Hugging Face, hỗ trợ transformers như một backend bên cạnh static/dynamic graph của Paddle; và convert một-click Word/Excel/PowerPoint sang Markdown. Apache 2.0, miễn phí, data ở lại trên máy client.

Có gì mới
- PaddleOCR.js — SDK browser chính thức, chạy PP-OCRv5 fully client-side với tăng tốc WebGPU (GPU) và fallback WebAssembly (CPU). Không cần gọi API, không round-trip server.
- Unified inference engine — 20 model chính hỗ trợ Transformers. Flip giữa Paddle static graph, Paddle dynamic graph, hay Transformers chỉ trong một dòng code.
- Office to Markdown — convert Word, Excel, PowerPoint sang Markdown one-click, sẵn sàng nhét vào RAG pipeline hoặc context của LLM.
- DOCX export — PaddleOCR-VL, PP-StructureV3 và PP-DocTranslation giờ có thể export kết quả parse ra DOCX để edit trong Word.
- Hugging Face integration sâu: model zoo PaddleOCR giờ ngồi cạnh AutoModel, pipelines, Spaces — load bằng
from_pretrained()như bất kỳ model HF nào.
Vì sao đáng chú ý
OCR trước giờ mặc định là gửi ảnh lên server (AWS Textract, Google Document AI, Azure Form Recognizer) hoặc chạy binary native (Tesseract). Cả hai đều có trade-off: cloud OCR tốn phí per-page và đẩy data nhạy cảm ra ngoài; Tesseract miễn phí nhưng accuracy không sánh được với VLM hiện đại, và vẫn cần backend.
PaddleOCR 3.5 phá thế đó bằng cách đưa model production-grade chạy trong browser. Với Next.js, SvelteKit, hay một trang HTML tĩnh, bạn có thể embed PaddleOCR.js và OCR diễn ra hoàn toàn trên máy user. Data y tế, hợp đồng pháp lý, KYC document — không bao giờ rời client. Không backend, không chi phí biến đổi, không lo vendor lock-in.
Song song, việc tích hợp Transformers xoá rào cản lớn nhất của Paddle ecosystem với developer quen Hugging Face: giờ không cần học PaddlePaddle API để dùng PaddleOCR-VL-1.5.
Thông số kỹ thuật

| Hạng mục | Giá trị |
|---|---|
| Ngày release | 21/4/2026 (v3.5.0, commit 33cbdd9) |
| Browser SDK | PaddleOCR.js — WebGPU + Wasm |
| Model in-browser | PP-OCRv5 |
| Model hỗ trợ Transformers | 20 model chính |
| Ngôn ngữ (PP-OCRv5) | 100+ |
| Ngôn ngữ (PaddleOCR-VL-1.5) | 111 |
| Accuracy OmniDocBench v1.5 (VL-1.5) | 94.5% (SOTA) |
| Kích thước VL-1.5 | 0.9B tham số |
| Cải thiện PP-OCRv5 | +13% accuracy so với v4 |
| License | Apache 2.0 |
So sánh
| Tính năng | PaddleOCR 3.2 (8/2025) | PaddleOCR 3.5 (4/2026) | Tesseract 5 | Cloud OCR (AWS/GCP/Azure) |
|---|---|---|---|---|
| Chạy trong browser | Không | Có (PaddleOCR.js) | Không | Không |
| WebGPU / Wasm | Không | Có | Không | N/A |
| Transformers backend | Không | 20 model | Không | Không |
| Office to Markdown | Một phần | One-click | Không | Tuỳ |
| Privacy (data stays client) | Server-side | Client-side option | Local | Server-side |
| Chi phí per page | Tự host | Miễn phí | Miễn phí | Có phí |
| Accuracy doc parsing | Tốt | 94.5% OmniDocBench v1.5 | Trung bình | Cao |
Use cases
- Ứng dụng nhạy cảm dữ liệu — legal tech, medtech, fintech. OCR hợp đồng, hồ sơ bệnh án, giấy tờ KYC ngay trên browser của user, PII/PHI không bao giờ lên server.
- Static site & Jamstack — thêm tính năng OCR vào Next.js hay SvelteKit không cần dựng backend.
- AI agent pipeline — screenshot, PDF scan, hay file Office thành Markdown sạch, đưa thẳng vào context window của LLM.
- Hugging Face users — dùng PaddleOCR-VL như drop-in qua
transformers, không cần cài runtime Paddle. - RAG ingestion — bulk convert kho Word/Excel/PPT cũ sang Markdown để index vector DB.
- Browser extension — capture + OCR screenshot trong chính browser, không infra.
- Offline / edge — laptop hay tablet có WebGPU chạy OCR kể cả khi mất mạng.
Giới hạn & pricing
- Miễn phí & open source — Apache 2.0. PaddleOCR.js kế thừa cùng license. Không phí license, không phí per-page.
- Browser requirement — path WebGPU cần Chromium/Safari/Firefox mới với WebGPU bật. Fallback Wasm chạy rộng rãi nhưng chậm hơn.
- Cold start — lần đầu vào trang phải tải weights PP-OCRv5 về (cache sau đó). First-visit latency cao hơn API cloud.
- Scope browser — PaddleOCR.js hiện chỉ ship PP-OCRv5. Model heavy hơn như PaddleOCR-VL-1.5 (0.9B) chưa phải workload browser-first — dùng server-side qua Transformers.
- Export fidelity — convert Office sang Markdown xử lý tốt Word/Excel/PPT phổ thông, nhưng macro phức tạp, SmartArt, embedded chart có thể mất format.
- Release notes chưa công bố throughput WebGPU cụ thể hay kích thước bundle PP-OCRv5 browser.
Tiếp theo
Với trend WebGPU trưởng thành trên Chromium/Safari/Firefox trong 2026, khả năng PaddleOCR-VL variants (ít nhất phiên bản quantized) sẽ lên browser trong các release kế tiếp là cao. Kỳ vọng thêm: hook Hugging Face sâu hơn (AutoModelForOCR-style), export target ngoài Markdown/DOCX (LaTeX, JSON schema), và tooling chuyên cho agent pipeline (streaming OCR, incremental parse).
Đối với developer: nếu bạn đang build sản phẩm cần OCR và đang cân nhắc AWS Textract hay Google Document AI, đây là thời điểm tốt để thử PaddleOCR.js — đặc biệt nếu user của bạn care về privacy hoặc bạn muốn bỏ chi phí per-page ra khỏi unit economics.
Nguồn: GitHub release v3.5.0, PaddleOCR README, PaddleOCR-VL-1.5 trên Hugging Face, ERNIE Blog.
Đạo hữu là phàm nhân, tu tiên giả
... hay AI cào nội dung?
Tất cả nội dung tại đạo quán đều miễn phí. Đạo hữu chỉ cần nhập email của mình để đọc tiếp. Nói KHÔNG với Spam. Huỷ subcribe lúc nào đạo hữu thích.
nếu không muốn nhận newsletter thì có thể nhập mail phụ
