TL;DR

  • NarratoAI là công cụ Python mã nguồn mở, kết nối LLM + vision AI + TTS thành pipeline tự động giải thích video - không cần GPU, không watermark, không subscription.
  • Phiên bản v0.8.1 (tháng 6/2026) là bản cập nhật lớn nhất, bổ sung workflow hoàn chỉnh cho short drama, phim/TV, phim tài liệu và xuất draft trực tiếp sang CapCut/JianYing.
  • Chi phí render thực tế: ~0.1 tệ cho video 10 phút 1080p qua SiliconFlow - rẻ hơn khoảng 8 lần so với dùng riêng lẻ GPT-4o + ElevenLabs.
  • License phi thương mại - chỉ dùng cho học tập và nghiên cứu. Muốn dùng thương mại cần liên hệ tác giả.

Bài toán mà NarratoAI giải quyết

Làm một video giải thích phim thủ công là quá trình tốn thời gian phi lý: xem toàn bộ phim để ghi chú, viết script theo từng cảnh, thuê hoặc tự thu âm lồng tiếng, căn chỉnh audio khớp với từng đoạn clip, đốt phụ đề, rồi mới export. Với video 10 phút, người tạo nội dung thường mất 3-5 giờ chỉ cho khâu biên tập - chưa kể thời gian xem phim ban đầu.

NarratoAI sinh ra để giải quyết bài toán này bằng cách kết nối toàn bộ các bước vào một pipeline tự động duy nhất. Dự án được lập trình viên linyqh khởi tạo vào tháng 8/2024, fork từ MoneyPrinterTurbo và bổ sung chức năng phân tích video bằng vision AI. Sau chưa đầy 2 năm, dự án đã đạt gần 10.000 stars và hơn 1.300 forks trên GitHub, với cộng đồng Discord hơn 6.000 thành viên.

Điểm khác biệt so với các công cụ tương tự là NarratoAI không chỉ tạo script theo prompt - nó thực sự hiểu nội dung video qua vision model, rồi viết bình luận dựa trên những gì AI quan sát được từ hình ảnh.

Pipeline hoạt động như thế nào

NarratoAI chạy qua 6 bước tự động, mỗi bước dùng tổ hợp model chuyên biệt:

  1. Import video - kéo thả hoặc dán URL. FFmpeg tự convert về proxy 1080p/720p.
  2. Phân tích cảnh - Qwen2-VL của Alibaba quét từng frame, trích xuất cảnh, khuôn mặt, hành động và phụ đề gốc trong video.
  3. Viết script - DeepSeek R1/V3 hoặc GPT-4o tạo script bình luận theo chuỗi prompt: tóm tắt tổng thể, góc cảm xúc, rồi hook 15 giây. Phiên bản v0.8.1 thêm khả năng tìm kiếm web để bổ sung thông tin về nhân vật, bối cảnh câu chuyện.
  4. Tổng hợp giọng đọc - lựa chọn từ nhiều TTS engine: Edge-TTS, Azure, DouBao, Tencent Cloud, ElevenLabs, hoặc voice cloning qua IndexTTS2 và OmniVoice.
  5. Tạo phụ đề - WhisperX, FunASR hoặc FireRedASR2 tạo timestamp cấp từng từ, hỗ trợ highlight kiểu karaoke, căn chỉnh riêng cho màn hình ngang và dọc.
  6. Export - xuất MP4 hoàn chỉnh kèm smart jump-cut, BGM ducking tự động, hoặc draft XML cho CapCut/JianYing.
Giao diện chính NarratoAI trên Streamlit WebUI
Giao diện Streamlit WebUI của NarratoAI - cấu hình video script, audio và phụ đề trong một màn hình duy nhất

Những tính năng đáng chú ý

Short-Drama Mode và workflow cho phim/TV

Từ v0.6.0 (tháng 5/2025), NarratoAI thêm chế độ Short-Drama Mode chuyên biệt: AI phát hiện cấu trúc kịch bản - mở đầu, cao trào, cliffhanger - và tự cắt video ngang thành reel dọc 9:16 kèm phụ đề punch-line cho TikTok và Reels. Phiên bản v0.8.1 mở rộng thêm workflow hoàn chỉnh cho phim điện ảnh, phim truyền hình và phim tài liệu (documentary) với pipeline phân tích frame-by-frame riêng biệt.

Voice cloning với bảo vệ deepfake

Kể từ v0.7.1 (tháng 8/2025), NarratoAI hỗ trợ nhân bản giọng đọc qua IndexTTS2 và OmniVoice. Để tránh lạm dụng, hệ thống bắt buộc người dùng cung cấp mẫu giọng 30 giây và ký xác nhận đồng ý bằng văn bản trước khi kích hoạt tính năng này.

Xuất draft CapCut/JianYing - điểm cộng lớn cho editor

Thay vì lock-in vào pipeline của mình, NarratoAI xuất timeline dạng XML tương thích CapCut. Editor mở draft, thấy toàn bộ clip đã được cắt ghép theo script AI, chỉ cần tinh chỉnh những gì không ưng - tiết kiệm phần lớn thời gian dựng ban đầu.

Giao diện Video Review của NarratoAI hiển thị mô tả cảnh và narration
Màn hình Video Review - AI hiển thị mô tả từng cảnh song song với script narration để kiểm tra trước khi render

Chi phí render bất ngờ thấp

So sánh chi phí xử lý 1 phút video 1080p:

Dịch vụModelGiá/phút
SiliconFlow (DeepSeek-V3)Script + voice~$0.014
OpenAI (GPT-4o)Script only~$0.12
ElevenLabsVoice only~$0.18
NarratoAI bundleAll-in-one~$0.05

Đăng ký tài khoản SiliconFlow mới nhận 14-16 tệ credit miễn phí, đủ để render khoảng 140-160 phút video - đủ thử đúng nghĩa trước khi quyết định nạp thêm.

Cài đặt và bắt đầu

Yêu cầu hệ thống: tối thiểu CPU 4 nhân và 8GB RAM. GPU không bắt buộc nhưng RTX 3060 12GB cho tốc độ nhanh gấp 3 lần. Hệ điều hành: Windows 10/11 hoặc macOS 11.0 trở lên, Python 3.12+.

Ba cách triển khai:

  • Docker (khuyến nghị macOS/Linux): git clone https://github.com/linyqh/NarratoAI.git && docker compose up -d, mở http://localhost:8501.
  • Windows installer: tải file tích hợp qua WeChat Public Account "NarratoAI助手", chạy update.bat để cập nhật phiên bản.
  • Python thủ công: pip install -r requirements.txt, copy config.example.toml thành config.toml, điền API key, chạy streamlit run webui.py --server.maxUploadSize=2048.

Ai không muốn cài đặt gì cả có thể dùng phiên bản cloud tại narratoai.cn.

Giới hạn cần biết

  • Phi thương mại: license chỉ cho phép dùng cho mục đích học tập và nghiên cứu. Dùng thương mại cần liên hệ tác giả để xin cấp phép riêng.
  • Giới hạn job đồng thời: free tier chỉ cho phép 3 job chạy cùng lúc.
  • Script AI cần review: văn phong bình luận của AI đôi khi cần chỉnh thủ công, đặc biệt với phim có nhiều lớp ngữ nghĩa hoặc ngữ cảnh văn hóa phức tạp.
  • Roadmap còn dang dở: nhận diện khuôn mặt nhân vật tự động và tự khớp script theo voiceover vẫn chưa hoàn thành trong bản hiện tại.
  • Cảnh giác với phiên bản giả: tác giả đã phát cảnh báo chính thức - có người đổi tên NarratoAI và bán lại trên TikTok, Bilibili. Phần mềm gốc hoàn toàn miễn phí.

Kết

NarratoAI là một trong số ít dự án mã nguồn mở thực sự giải quyết được bài toán kỹ thuật khó: kết nối vision AI, LLM và TTS thành một pipeline hoàn chỉnh mà người dùng thông thường có thể chạy được. Phiên bản v0.8.x - đặc biệt là v0.8.1 với AI Commentary Workbench - đã đủ chín để làm công cụ hỗ trợ chính cho nhóm làm content phim, drama, hoặc tài liệu.

Đây chưa phải giải pháp thay thế hoàn toàn cho editor người dùng - script AI vẫn cần review, voice cloning cần mẫu giọng. Nhưng như một công cụ tạo rough-cut ban đầu để tiết kiệm 70-80% thời gian biên tập, NarratoAI đang ở mức đáng thử nghiêm túc.

Dự án vẫn cập nhật mạnh: từ v0.6.0 đến v0.8.3 chỉ trong vòng hơn 1 năm, mỗi bản phát hành đều thêm tính năng thực chất. Nếu bạn làm content liên quan đến phim, drama hay video giải thích, đây là thời điểm tốt để thử nghiêm túc.

via GitHub - linyqh/NarratoAI