- reels-af biến URL bài viết hoặc topic bất kỳ thành video dọc 1080x1920 hoàn chỉnh trong ~80 giây với chi phí ~$0.10/reel.
- Pipeline dùng 18 AI agents chạy song song trên AgentField, kết hợp Gemini 3.1 Flash TTS và Gemini 2.5 Flash Image.
- Mã nguồn mở Apache 2.0, chỉ cần một OpenRouter API key để chạy ngay.
TL;DR
reels-af là một tool open-source chạy 18 AI agents song song để tự động tạo video dọc 1080×1920 từ một URL bài viết hoặc một topic phrase - không cần chỉnh sửa tay, không cần phần mềm edit video. Chi phí khoảng $0.08-0.10/reel (~2.000đ), thời gian ~80 giây. Tool xây dựng trên AgentField, dùng Gemini 3.1 Flash TTS, Gemini 2.5 Flash Image và DeepSeek V4 Pro để reasoning. Giấy phép Apache 2.0.
Nút thắt khi dùng AI tạo video ngắn
Hầu hết các pipeline AI tạo video ngắn hiện tại mắc ít nhất một trong ba vấn đề:
- TTS sync drift: âm thanh và phụ đề lệch nhau theo thời gian, đặc biệt khi video dài hơn 20 giây
- Script nhàm: tool ghi lại văn bản gốc thay vì tìm góc nhìn viral - không có hook, không có curiosity gap
- Front-load hook: toàn bộ "điểm thú vị" nằm trong 3 giây đầu, sau đó viewer thoát
reels-af giải quyết cả ba bằng kiến trúc multi-agent và một quyết định kiến trúc quan trọng: video được decouple hoàn toàn khỏi word timing - audio là master track, cards drive subtitles, beats drive visuals. Không có priming drift.
Cơ chế: 18 AI agents trong 80 giây
Pipeline có hai đầu vào, hội tụ về cùng một downstream từ phase 3:
- article_to_reel: nhận URL, extract surprising claim + mechanism + evidence, tự detect content mode (ví dụ: URL từ arXiv sẽ tự switch sang scientific mode với tốc độ 175 WPM và định nghĩa inline các thuật ngữ chuyên ngành)
- topic_to_reel: nhận topic phrase, fan-out 4 hunter agents (specific_figure / reversal / temporal / cross_domain) tạo 12 candidate essences, critic chọn top 3, 3 narrator agents viết delayed-reveal script, pairwise judge chọn winner
Sau intake, pipeline chạy 4 phase downstream:
- Script: tạo Hook → Mechanism → Payoff + inline TTS tags. Schema validator đảm bảo câu cuối echo hook keyword, tạo vòng lặp
- Audio: Gemini 3.1 Flash TTS synthesize song song từng câu với 200+ inline audio tags, đo bằng
ffprobe, tăng tốcatempo=1.35- không dùng Whisper/ASR - Plan: 2 helper deterministic (cards cho subtitle layout, beats cho visual planning) + 2 LLM fan-out song song (per-beat image prompts, per-beat optional accents)
- Render & Stitch: Gemini 2.5 Flash Image tạo ảnh 720×1280 mỗi beat, ffmpeg ken-burns animation (default, miễn phí), rồi 1 ffmpeg pass concat + libass subtitle burn + AAC mux
Bắt đầu trong 3 lệnh
Cách nhanh nhất là dùng Docker Compose đã bundle sẵn AgentField control plane:
git clone https://github.com/Agent-Field/reels-af
cd reels-af
cp .env.example .env # thêm OPENROUTER_API_KEY
docker compose up --build
Sau khi stack khởi động, mở http://localhost:8080/ui/ để xem DAG chạy live. Trigger reel đầu tiên:
# Từ URL bài viết
af execute reel-af.article_to_reel -i '{"url": "https://arxiv.org/abs/..."}'
# Từ topic phrase
af execute reel-af.topic_to_reel -i '{"topic": "fingerprints"}'
Output nằm trong ./output/<run-id>/reel.mp4 kèm result.json chứa hook variant, hunter rankings, judge verdict và per-phase timing. Yêu cầu: Python 3.10+, OpenRouter API key (nạp tối thiểu $5), ffmpeg + ffprobe.
Tính năng nổi bật
- Word-burst karaoke: hiện từng từ một, 170px bottom-center, sample-accurate - không drift theo thời gian
- Editorial accents: 6 pattern tự động bao gồm UPPERCASE callout cho số liệu, tên riêng, jargon translation - không cần chỉnh tay
- Two-tier fallback: image fail → placeholder; Veo fail → ken-burns - reel luôn được assemble dù có lỗi trung gian
- Veo 3.1 Lite upgrade: bật
REEL_AF_USE_VEO=trueđể dùng Veo 3.1 Lite i2v thay ken-burns, thêm ~$1.10/reel (tổng ~$1.20) - Customizable models: đổi reasoning model qua
REEL_AF_MODEL, image model quaREEL_AF_IMAGE_MODEL; reasoning có thể trỏ về local vLLM/Ollama endpoint - DAG live UI: AgentField control plane render toàn bộ 18-node DAG với prompt, input/output, latency và cost từng node
Chi phí mặc định (OpenRouter list price tháng 05/2026):
| Path | Reasoners | Wall time | Chi phí/reel |
|---|---|---|---|
| article_to_reel | 10 | ~70-90s | ~$0.08 |
| topic_to_reel | 18 | ~85-110s | ~$0.10 |
Khác gì các tool tạo video ngắn khác?
Hầu hết các tool trên GitHub trong category reels-generator hoạt động theo một trong hai kiểu: clipping extractor (cắt video dài thành short) hoặc news-to-video bot (TTS + stock footage cứng nhắc). reels-af khác ở chỗ nó hunt viral angle trước, sau đó mới viết script:
- Topic mode dùng 4 hunter agents tìm góc cụ thể (một nghiên cứu cụ thể, một reversal, một góc temporal, một cross-domain connection) thay vì tóm tắt linear
- Delayed-reveal narration: tease → common belief → reveal → payoff - cấu trúc retention-optimized thay vì chỉ đọc thông tin
- Sample-accurate audio không cần ASR - không có drift kể cả với reel 25 giây
Về platform, AgentField khác LangChain/CrewAI ở chỗ nó là production backend (không phải framework): mỗi agent được gán W3C DID cryptographic identity, mọi action được ký và tạo Verifiable Credential audit trail - quan trọng khi agent trigger real-world action.
Giới hạn cần biết
- Media qua OpenRouter bắt buộc: TTS, image và Veo generation phải route qua OpenRouter ngay cả khi tự host reasoning - configurable per-provider media endpoint đang track ở issue #2
- Gemini TTS đôi khi quá văn học: hiểu sai
[pause]tag hoặc dấu câu → reel chạy quá 25 giây, cần re-run; kiểm traresult.jsonmụctimings_s.tts - Veo i2v content moderation: false positive có thể xảy ra trên một beat → fallback ken-burns tự động
- Chưa có: voice cloning, B-roll insertion, multi-language output, direct publish lên TikTok/Reels/Shorts
Ai nên thử ngay
- Content creator muốn tự động hóa: nếu bạn cần tạo hàng chục Reels/tuần từ bài viết hoặc research papers, $0.10/reel và 80 giây là con số khó bỏ qua
- Developer xây automated content pipeline: reels-af expose REST API, không vendor lock-in, dễ tích hợp vào pipeline hiện có
- Science communicator: scientific mode tự detect khi input là arXiv/paper URL, tự điều chỉnh pacing và định nghĩa thuật ngữ inline
- Người muốn chạy faceless channel: ken-burns default + word-burst karaoke là đủ cho high-volume; bật Veo khi cần premium output
Không phù hợp nếu bạn cần: video dài > 30 giây, voice cloning, multi-language, hoặc workflow không muốn phụ thuộc OpenRouter cho media.
Kết
reels-af chứng minh rằng multi-agent architecture không chỉ dùng cho research hay coding assistant - nó ứng dụng được vào media production pipeline với chi phí thực sự thấp. 18 agents, 80 giây, $0.10. Phần thú vị nhất là kiến trúc decouple audio/video giải quyết đúng technical debt mà hầu hết pipeline single-pass không xử lý được.
AgentField (platform đứng sau) đang ở v0.1.91 với 2.200 stars và 41 commits/tuần - ecosystem còn nhiều tool tương tự đang được build: SEC-AF (security auditor), PR-AF (PR reviewer), Contract-AF (legal risk analyzer). Nếu bạn cần tích hợp, repo reels-af và AgentField đều Apache 2.0.
Đạo hữu là phàm nhân, tu tiên giả
... hay AI cào nội dung?
Tất cả nội dung tại đạo quán đều miễn phí. Đạo hữu chỉ cần nhập email của mình để đọc tiếp. Nói KHÔNG với Spam. Huỷ subcribe lúc nào đạo hữu thích.
nếu không muốn nhận newsletter thì có thể nhập mail phụ
