TL;DR

Hermes-video-agent là pipeline video tự động end-to-end vừa được dev @trungkts29 mở mã trên GitHub (ntclick/Hermes-video-agent) theo giấy phép MIT. Bỏ vào một URL YouTube/TikTok/Douyin, một AI agent dùng function-calling tự điều phối các bước: tải video, transcribe bằng Whisper local, dịch bằng Kimi K2.6 hoặc Hermes 3, OCR thay text trên màn bằng EasyOCR, ghép phụ đề song ngữ bằng FFmpeg, rồi tự đăng lên X qua Playwright. Hỗ trợ 5 ngôn ngữ (vi, en, zh, ja, ko), chạy được trên VPS 2 CPU / 4GB RAM, không cần API key cho phần STT.

Có gì mới

Khác với các pipeline ETL truyền thống ghép yt-dlp + whisper + ffmpeg bằng cron, Hermes-video-agent đưa toàn bộ luồng cho một AI agent quyết định. Dev chỉ định nghĩa system prompt và một tập tools; agent tự gọi tool nào, theo thứ tự nào, retry ra sao thông qua function-calling. Đây là điểm khác biệt căn bản: thêm tính năng mới = thêm 1 hàm trong functions.py, không phải viết lại DAG.

Tác giả còn đính kèm Script Extractor mode: thay vì publish trực tiếp, agent rewrite clip viral thành kịch bản 5 cảnh dạng cinematic kèm prompt ảnh per-scene, sẵn sàng feed vào Veo, Sora hoặc FLUX để dựng clip mới hoàn toàn.

Vì sao đáng chú ý

Pipeline này gói lại đúng workflow mà nhiều SaaS đang tính phí theo phút (Submagic, Opus Clip, Captions.ai) — và đẩy nó về máy bạn, miễn phí. Với creator solo, agency nhỏ, hay team growth làm content arbitrage xuyên biên giới, đây là bộ công cụ thay thế cả stack Whisper + DeepL + CapCut + Buffer chỉ bằng một repo Python + Next.js.

Mặt khác, đây cũng là một case study đẹp về việc dùng AI agent function-calling để thay thế logic if/else: dòng Hermes của Nous Research được train riêng trên dataset hermes-function-calling-v1, đạt độ chính xác gọi hàm khoảng 90% — đủ tin cậy để ủy quyền điều phối pipeline thật.

Stack & thông số kỹ thuật

Lớp

Công nghệ

Vai trò

Speech-to-text

OpenAI Whisper (local)

Transcribe audio, không cần API key

Brain / dịch

Kimi K2.6 hoặc Hermes 3 qua OpenRouter

Agent reasoning + function-calling + dịch

OCR

EasyOCR (local)

Phát hiện và thay text on-screen

Video

FFmpeg

Burn phụ đề song ngữ, keyframe, encode

Publishing

Playwright headless

Auto-post X/Twitter

Cover AI (optional)

fal.ai FLUX

Sinh ảnh/video bìa

Backend

FastAPI + async SQLAlchemy + SQLite

API + persistence

Frontend

Next.js 15 + React 19 + TypeScript

UI điều khiển

Yêu cầu deploy tối thiểu: Python 3.11+, Node.js 20+, FFmpeg trên PATH, 2 CPU / 4GB RAM / 20GB disk. Codebase: ~63.6% Python, 26.3% TypeScript, 8.4% CSS.

So sánh nhanh

Hạng mục

Hermes-video-agent

SaaS clip (Submagic/Opus)

Cron yt-dlp + whisper + ffmpeg

Chi phí

Free (MIT) + token Kimi/OpenRouter

$10–$50/tháng theo phút

Free, tốn dev-time

Điều phối

AI agent function-calling

Closed UI

Bash/Python script cứng

Đa ngôn ngữ

vi, en, zh, ja, ko

Tuỳ plan

Tự code thêm

Thay text on-screen

OCR + replace

Một số có

Phải tự build

Auto-publish

Có (Playwright)

Tự tích hợp X API

Self-host

Có, 4GB RAM đủ

Không

Use case đáng thử

  • Content arbitrage xuyên biên giới: pull clip viral Douyin → dịch tiếng Việt/Anh → đăng X trong vài phút.

  • Creator solo: bỏ luôn công đoạn sub và dịch tay — 1 URL vào, 1 clip ra.

  • Multi-lingual: 1 nguồn, 5 locale output — mở rộng audience không cần ekip.

  • Repurpose viral: Script Extractor biến clip 30s thành kịch bản 5 cảnh + prompt ảnh, feed thẳng vào Veo/Sora để dựng video gốc mới.

  • Agency / growth team: 1 VPS 4GB thay cho cả stack Whisper + DeepL + CapCut + Buffer.

Hạn chế & điểm cần cân nhắc

  • Repo còn rất sớm: tại thời điểm khảo sát chỉ ~3 sao, 1 fork, 23 commit — kỳ vọng có breaking change và rough edges.

  • Auto-post qua Playwright không phải X API chính thức — dễ vỡ khi X đổi UI.

  • Hardware: Whisper + EasyOCR chạy CPU được nhưng chậm với clip dài; khuyến nghị clip ngắn (<5 phút).

  • OCR text replacement phụ thuộc font & background; đồ hoạ phức tạp dễ vỡ.

  • Tuân thủ ToS: auto-fetch TikTok/Douyin/YouTube và repost có thể vi phạm điều khoản nền tảng — rủi ro do user chịu.

  • Chi phí ẩn: repo MIT free, nhưng vẫn tốn token OpenRouter/Kimi cho dịch và optional fal.ai cho cover.

Tiếp theo & cách bắt đầu

Hướng phát triển tự nhiên: thêm output language, chuyển sang X API chính thức (giảm phụ thuộc Playwright), hỗ trợ video dài hơn, mở thêm publish target (TikTok, YouTube Shorts). Với người muốn thử ngay, clone repo, set OPENROUTER_API_KEY, cài FFmpeg, dán URL — toàn bộ pipeline tự chạy.

Nguồn: github.com/ntclick/Hermes-video-agent, Hermes Agent docs (Nous Research), Hermes Function Calling.