PaperBanana: tự động vẽ sơ đồ khoa học từ paper, không cần Illustrator hay TikZ

TL;DR

PaperBanana là framework agentic do Peking University và Google Cloud AI Research công bố tháng 02/2026, tự động sinh sơ đồ methodology và biểu đồ thống kê đạt chuẩn publication. Bản open-source llmsresearch/paperbanana trên GitHub đã có sẵn CLI, Python API, Gradio UI và MCP server cho Claude Code, Cursor. Pipeline 5 agent (Retriever, Planner, Stylist, Visualizer, Critic) chạy qua 2 phase, hỗ trợ OpenAI, Azure, Google Gemini. License MIT, Gemini có free tier nên thử thoải mái.

PaperBanana - tự động vẽ sơ đồ khoa học

Vẽ sơ đồ - bài toán nhỏ nhưng tốn thời gian nhất

Trong workflow nghiên cứu AI, viết model code, train, viết text thì đã có nhiều tool hỗ trợ. Riêng phần vẽ sơ đồ methodology, architecture, pipeline thì vẫn phải mở Illustrator, Figma, PowerPoint hoặc viết tay TikZ trong LaTeX. Đó là khâu thủ công cuối cùng, tốn vài giờ đến vài ngày cho mỗi figure trong paper submission.

Các tool image generation phổ thông như DALL-E hay Midjourney sinh ảnh đẹp nhưng không đạt chuẩn academic: text trong sơ đồ bị méo, arrow nối lệch, structural accuracy kém. Đó là khoảng trống mà PaperBanana muốn lấp.

Bên trong: pipeline 5 agent chạy 2 phase

PaperBanana không dùng một mô hình end-to-end. Thay vào đó chia nhỏ thành 5 agent chuyên trách, mỗi agent là một LLM call có vai trò riêng:

Pipeline 5 agent của PaperBanana

Retriever - tìm sơ đồ tham chiếu liên quan từ dataset 13 diagram curated, làm in-context learning.
Planner - đọc text methodology, sinh blueprint chi tiết cho figure (layout, node, label).
Stylist - áp guideline aesthetic chuẩn NeurIPS (color, typography, spacing).
Visualizer - render thành ảnh thật bằng image generation model, hoặc sinh code Matplotlib nếu là plot thống kê.
Critic - review output, suggest sửa, loop lại Visualizer tối đa 3 round.

Phase 1 (Retriever - Planner - Stylist) chạy tuyến tính. Phase 2 (Visualizer - Critic) chạy lặp cho đến khi đạt tiêu chí hoặc hết số round. Bản open-source thêm Phase 0 tuỳ chọn với Context Enricher và Caption Sharpener chạy song song để tinh chỉnh input.

Làm được những gì

Sinh 1 sơ đồ methodology từ file .txt hoặc PDF.
Batch nhiều figure từ một manifest YAML hoặc JSON, ghép composite có label tự động.
Xuất full figure package cho cả paper: file figures.tex, captions.md đính kèm.
Sinh statistical plot bằng code Matplotlib - giữ chính xác số liệu, output editable.
Polish lại sơ đồ vẽ tay theo style chuẩn publication.
Evaluate diagram so với bản tham chiếu của người trên 3 trục: faithfulness, readability, aesthetics.

Số liệu trên PaperBananaBench

Nhóm tác giả công bố kèm benchmark PaperBananaBench: 584 sample (292 test, 292 reference) lấy từ paper NeurIPS 2025. So với vanilla image generation, PaperBanana cải thiện Conciseness +37.2%, Readability +12.9%, Aesthetics +6.6%, Content fidelity +2.8%. Trong blind preference test, reviewer chọn output của PaperBanana khoảng 73% số case.

Điểm tổng hợp của PaperBanana trên benchmark đạt 60.2, vượt các baseline image gen đơn thuần ở mọi metric.

Tích hợp và provider

Bản open-source hỗ trợ rộng provider để bạn tự chọn theo budget:

VLM: OpenAI (GPT-5.2), Azure OpenAI / Foundry, Google Gemini, Atlas Cloud (DeepSeek), OpenRouter.
Image gen: OpenAI GPT-Image-1.5, Gemini 3 Pro (NanoBanana), Atlas Cloud, OpenRouter.
Interface: CLI (paperbanana generate / plot / batch / orchestrate / evaluate / polish / composite), Python API asyncio có progress callback và resume, Gradio Studio Web UI local, MCP server expose 11 tool cho Claude Code và Cursor.

Cài đặt nhanh:

pip install paperbanana
# hoac kem optional feature
pip install "paperbanana[dev,openai,google,studio,pdf,mcp]"

API key cấu hình qua file .env hoặc chạy wizard paperbanana setup. Google Gemini có free tier qua AI Studio, đủ để thử pipeline đầy đủ không mất phí.

Giới hạn cần biết

Đừng kỳ vọng PaperBanana giải quyết hết. Content accuracy trên benchmark mới đạt 45.8% so với human baseline 50%. Lỗi hay gặp: connector nối lệch giữa các block, arrow chỉ sai hướng, label rời chỗ. Output cho method diagram là raster PNG, không phải vector editable, nên sửa thủ công sau sinh khó khăn. Statistical plot là ngoại lệ tốt vì xuất Matplotlib code, có thể tweak tay.

Tóm lại: dùng PaperBanana cho draft đầu rồi tự fix label nhỏ vẫn nhanh hơn vẽ tay từ đầu nhiều, nhưng đừng kỳ vọng one-shot ra figure cuối cùng.

Ai nên thử ngay

PhD student và AI researcher chuẩn bị submission NeurIPS, ICML, ICLR cần nhiều figure trong thời gian ngắn.
Team viết blog post kỹ thuật cần diagram architecture nhưng không có designer riêng.
Người dùng Claude Code hoặc Cursor muốn gắn MCP server vào IDE để sinh figure từ markdown method section.
Bất kỳ ai chán cảnh phải mở Illustrator chỉ để vẽ 1 sơ đồ encoder-decoder nhỏ.

Kết

PaperBanana không phải tool sinh figure hoàn hảo, nhưng là bước đi đúng hướng để cắt khâu thủ công cuối cùng trong workflow research. License MIT, hỗ trợ provider có free tier, interface đa dạng từ CLI đến MCP - chi phí thử gần như bằng 0. Đáng để clone repo về và chạy thử cho figure paper tiếp theo của bạn.

References

via GitHub llmsresearch/paperbanana, The Decoder, Analytics Vidhya, MLWires.