← Tất cả bài viết

Tag: #video-generation

19 bài viết

biến HTML thành MP4 ngay trên laptop của bạn
#7632026-06-07

biến HTML thành MP4 ngay trên laptop của bạn

Repo giúp coding agent đưa HTML, CSS, dữ liệu thành MP4 thật ngay trên máy, không cloud render. Tất cả 14 backend gồm Claude Code, Cursor, Codex, Gemini, OpenCode được auto-detect trên PATH, chọn trong studio local ở cổng 3071. Thư viện 21 template license-clean dùng manifest YAML với inputs schema, SPDX, và flag thương mại rõ ràng. Engine adapter cho phép ghép Remotion, Motion Canvas, Manim sau này mà không phá vỡ content-graph và agent loop.

html-videoopen-sourcevideo-generation
7 phút đọc
lanshu-awesome-ai-video-kit: Bộ công cụ prompt engineering AI video mã nguồn mở cho doanh nghiệp
#7272026-05-27

lanshu-awesome-ai-video-kit: Bộ công cụ prompt engineering AI video mã nguồn mở cho doanh nghiệp

lanshu-awesome-ai-video-kit là bộ công cụ open-source với 543 prompt đã kiểm tra thực tế trên 16 model AI video. GitHub Action tự động giám sát 32 endpoint chính thức mỗi tuần để đảm bảo prompt không bị lỗi thời. Bộ 7 Claude Code Skills tích hợp sẵn giúp tự động chọn model, dịch prompt và debug lỗi. Dự án đạt 228 stars sau vài ngày ra mắt, hoàn toàn miễn phí theo giấy phép MIT.

ai-videoprompt-engineeringopen-source
7 phút đọc
Meituan Mở Nguồn LongCat-Video-Avatar 1.5 - AI Tạo Video Talking Head Đánh Bại HeyGen và Kling
#7102026-05-22

Meituan Mở Nguồn LongCat-Video-Avatar 1.5 - AI Tạo Video Talking Head Đánh Bại HeyGen và Kling

LongCat-Video-Avatar 1.5 của Meituan phát hành ngày 21/05/2026 với giấy phép MIT, miễn phí chạy local. Win rate đạt +65.9% so với Kling Avatar 2.0 và +54.3% so với HeyGen trên benchmark EvalTalker với 770 người đánh giá. Audio encoder nâng cấp lên Whisper-Large-v3 hỗ trợ 99 ngôn ngữ, inference rút ngắn từ 20 xuống còn 8 bước.

aiopen-sourcevideo-generation
5 phút đọc
Gemini Omni: Model đầu tiên của Google tạo video từ bất cứ đầu vào nào
#6892026-05-20

Gemini Omni: Model đầu tiên của Google tạo video từ bất cứ đầu vào nào

Gemini Omni Flash ra mắt tại Google I/O ngày 19/05/2026, xử lý text, image, audio và video đồng thời trong một token space duy nhất - không phải ghép nhiều model riêng lẻ. Hai clip video có thể chiếm tới 86% daily quota của gói Google AI Pro. API dự kiến $0.10/giây (standard) và $0.30/giây (high-quality). Sora đã đóng consumer app tháng 4/2026 - Google và ByteDance đang dẫn đầu cuộc đua AI video 2026.

gemini-omnigoogle-deepmindai-video
6 phút đọc
Open Generative AI: Studio Tạo Ảnh & Video Miễn Phí Với 200+ Model, Không Filter
#5672026-05-09

Open Generative AI: Studio Tạo Ảnh & Video Miễn Phí Với 200+ Model, Không Filter

Open Generative AI đạt 15.5k GitHub stars, cung cấp 200+ model AI tạo ảnh và video hoàn toàn miễn phí, không content filter, MIT license. Runway Standard $12/tháng chỉ cho khoảng 62 giây Gen-4 video trước khi hết credits - Open Generative AI không giới hạn và không tốn phí subscription. Hỗ trợ 5 studio: Image, Video, Lip Sync, Cinema, Workflow - chạy được local inference trên Mac, Windows, Linux. Dữ liệu và ảnh tham chiếu ở hoàn toàn trên máy bạn, không gửi cloud.

open-generative-aiai-video-generationopen-source
6 phút đọc
OpenReel Video: Trình Chỉnh Sửa Video Mã Nguồn Mở Chạy Thẳng Trên Trình Duyệt, Không Cần Cài Đặt
#5652026-05-09

OpenReel Video: Trình Chỉnh Sửa Video Mã Nguồn Mở Chạy Thẳng Trên Trình Duyệt, Không Cần Cài Đặt

OpenReel Video là trình chỉnh sửa video MIT license, chạy 100% trên trình duyệt, không upload file lên server. Hỗ trợ timeline đa track, xuất 4K @ 60fps miễn phí, không watermark, không tài khoản. Xây dựng trên WebCodecs + WebGPU, đạt 2.300+ GitHub stars chỉ sau vài tháng beta. Thay thế trực tiếp CapCut cho người dùng cần quyền riêng tư hoặc ở quốc gia bị hạn chế.

open-sourcevideo-editorwebgpu
6 phút đọc
Paper2Video: AI tự động biến bài báo khoa học thành video presentation
#5332026-05-07

Paper2Video: AI tự động biến bài báo khoa học thành video presentation

PaperTalker - hệ thống multi-agent từ NUS - tự động tạo video presentation từ paper LaTeX với chi phí $0.001/video. Đạt PresentQuiz 84.2%, vượt human-made 10%. Mã nguồn mở MIT, chấp nhận tại NeurIPS 2025 Workshop. Yêu cầu GPU 48GB VRAM để self-host.

paper2videoai-researchresearch-tools
6 phút đọc
FFmpeg và VLC: Hai phần mềm open source đang vận hành mọi video trên internet
#5182026-05-07

FFmpeg và VLC: Hai phần mềm open source đang vận hành mọi video trên internet

FFmpeg và VLC là backbone vô hình của mọi video bạn xem mỗi ngày - từ YouTube, Netflix đến tàu thám hiểm Perseverance trên Sao Hỏa. VLC đã đạt 6 tỷ lượt tải, dav1d (AV1 decoder) chứa 240.000 dòng handwritten Assembly với tốc độ nhanh hơn C đến 62 lần. Toàn bộ hạ tầng khổng lồ này được xây và duy trì bởi khoảng 15-20 tình nguyện viên, không lương.

ffmpegvlcopen-source
7 phút đọc
VLMaxxing: Dạy Video VLM Bỏ Qua Những Gì Không Thay Đổi - Không Cần Training
#5162026-05-07

VLMaxxing: Dạy Video VLM Bỏ Qua Những Gì Không Thay Đổi - Không Cần Training

VLMaxxing (arXiv 2605.03351) dạy video VLM tái sử dụng trạng thái visual thay vì xử lý lại mọi frame giống hệt nhau. Kỹ thuật training-free đạt 14.90-35.92x tăng tốc cho follow-up query trên Qwen2.5-VL-7B, không drift độ chính xác qua 93 câu hỏi. C-VISION pruning trên Gemma 4-E4B đạt 54 fps, giảm 42.2% thời gian xử lý vision tower. Mã nguồn mở tại github.com/jfbastien/VLMaxxing.

video-vlmai-researchcomputer-vision
6 phút đọc
VectCutAPI: Mở Khóa CapCut Bằng Code - Công Cụ AI Agent Làm Video Hàng Loạt
#4292026-05-01

VectCutAPI: Mở Khóa CapCut Bằng Code - Công Cụ AI Agent Làm Video Hàng Loạt

VectCutAPI là open-source Python API kết nối thẳng vào CapCut/Jianying engine, cho phép AI agent tự động tạo video qua 35+ REST endpoint và 11 MCP tool. Là công cụ đáng chú ý nhất để build workflow video tự động với Coze, Dify, N8N, hoặc Claude Code. Apache-2.0, miễn phí hoàn toàn, chạy local.

capcut-apimcpvideo-automation
7 phút đọc
Open Design - Alternative Open-Source cho Claude Design đạt 32k Stars trong 10 Ngày
#4032026-04-26

Open Design - Alternative Open-Source cho Claude Design đạt 32k Stars trong 10 Ngày

Open Design đạt 31.9k stars GitHub chỉ trong 10 ngày sau khi ra mắt cuối tháng 4/2026. Chạy trên 16 coding agent CLI (Claude Code, Codex, Gemini...) với 31 Skills và 72 Design Systems sẵn dùng, local-first, miễn phí, Apache-2.0. Export được HTML, PDF, PPTX, MP4 - bao gồm HyperFrames video cinematics zero prompt engineering.

open-designclaude-designopen-source
6 phút đọc
Hermes Video Agent: pipeline tự động "1 URL vào - 1 clip (đã sub) ra", vừa open-source MIT
#3722026-04-24

Hermes Video Agent: pipeline tự động "1 URL vào - 1 clip (đã sub) ra", vừa open-source MIT

Một dev solo vừa mở mã Hermes-video-agent: bỏ vào 1 URL YouTube/TikTok/Douyin, AI agent tự tải, transcribe bằng Whisper, dịch bằng Kimi K2.6, OCR thay text trên màn, ghép phụ đề song ngữ bằng FFmpeg, rồi auto-post lên X. Toàn bộ chạy local, MIT, không khoá API key.

video-pipelinekimi-k2video-automation
6 phút đọc
GPT-Image-2 + Seedance 2.0: Vẽ "sơ đồ chuyển động camera" để điều khiển video AI
#3392026-04-21

GPT-Image-2 + Seedance 2.0: Vẽ "sơ đồ chuyển động camera" để điều khiển video AI

Một combo AI mới đang viral trên X: dùng GPT-Image-2 vẽ sơ đồ trajectory camera, đẩy sang Seedance 2.0 để render thành video 15 giây với góc máy chuẩn từng beat. Đây là cách hoạt động và vì sao nó nguy hiểm cho video gen text-to-video truyền thống.

gpt-image-2seedance-2ai-video
7 phút đọc
Jellyfish AI - P2: Cách Cài Đặt, Workflow Chi Tiết và Cơ Hội Kiếm Tiền Từ Phim Ngắn
#3072026-04-18

Jellyfish AI - P2: Cách Cài Đặt, Workflow Chi Tiết và Cơ Hội Kiếm Tiền Từ Phim Ngắn

Jellyfish cài đặt qua Docker Compose chỉ cần 3 lệnh, không yêu cầu kỹ năng lập trình đặc biệt. Workflow 5 bước từ kịch bản đến phim hoàn chỉnh giải quyết bài toán nhất quán nhân vật - điểm yếu lớn nhất của AI video. Thị trường phim ngắn AI đang trả revenue share cho creator solo, với nền tảng Hongguo phân bổ 5 tỷ NDT ngân sách content năm 2026.

ai-toolshort-dramaopen-source
5 phút đọc
Remotion vs Hyperframes: Cuộc Đua Tạo Video Bằng Code Trong Kỷ Nguyên AI Agent
#2382026-04-06

Remotion vs Hyperframes: Cuộc Đua Tạo Video Bằng Code Trong Kỷ Nguyên AI Agent

So sánh chi tiết 2 framework tạo video programmatic hàng đầu 2026 - Remotion (React) vs Hyperframes (HTML thuần, agent-first by HeyGen). Cùng prompt, cùng Opus 4.7, kết quả khác nhau. Đâu là lựa chọn đúng cho bạn?

remotionhyperframesheygen
7 phút đọc
ViMax: Framework AI Tạo Video Tự Động Từ Một Câu Lệnh, Mã Nguồn Mở Từ HKU
#1532026-02-28

ViMax: Framework AI Tạo Video Tự Động Từ Một Câu Lệnh, Mã Nguồn Mở Từ HKU

ViMax là framework AI mã nguồn mở từ Đại học Hong Kong, điều phối 12 agent chuyên biệt để tạo video dài nhiều phút với nhân vật nhất quán hoàn toàn tự động. Tiết kiệm 40-60% thời gian sản xuất so với làm thủ công, rút ngắn từ 10-12 ngày xuống còn 4-5 ngày. Hoàn toàn miễn phí theo giấy phép MIT, hơn 8.100 stars trên GitHub.

ai-videoopen-sourcemulti-agent
6 phút đọc
Toonflow: Công cụ AI mã nguồn mở biến tiểu thuyết thành phim hoạt hình ngắn
#1222026-01-25

Toonflow: Công cụ AI mã nguồn mở biến tiểu thuyết thành phim hoạt hình ngắn

Toonflow là AI Agent orchestration engine open-source giúp tự động chuyển tiểu thuyết thành phim hoạt hình ngắn hoàn chỉnh - từ nhân vật, kịch bản đến video. Hiện đạt 8.600 GitHub stars, hỗ trợ 7 ngôn ngữ bao gồm tiếng Việt. Chi phí sản xuất ~$12-57/tập, demo thực tế hoàn thiện phim 2 phút trong khoảng 2 giờ. Thị trường phim ngắn AI toàn cầu ước đạt $14 tỷ năm 2026.

ai-toolsopen-sourcevideo-generation
5 phút đọc
ComfyUI-Workflows-ZHO: Bộ sưu tập workflow số 1 thế giới dành cho video editor
#0632025-05-08

ComfyUI-Workflows-ZHO: Bộ sưu tập workflow số 1 thế giới dành cho video editor

ComfyUI-Workflows-ZHO của ZHO là bộ sưu tập hơn 54 workflow ComfyUI miễn phí, đạt 5.000 stars trên GitHub - lớn nhất toàn cầu trong phân khúc open-source. 23 danh mục từ FLUX.1, SD3, 3D generation đến video synthesis và LLM integration. Hoàn toàn miễn phí theo GPL v3.0.

comfyuistable-diffusionflux
7 phút đọc
ComfyUI_PuLID_Flux_ll: Giải quyết model pollution và tự do thương mại với FaceNet
#0622025-05-08

ComfyUI_PuLID_Flux_ll: Giải quyết model pollution và tự do thương mại với FaceNet

ComfyUI_PuLID_Flux_ll giải quyết triệt để vấn đề model pollution trong PuLID Flux gốc - nhân vật chèn vào không còn làm hỏng style và ánh sáng ảnh. FaceNet thay thế InsightFace, xóa bỏ hoàn toàn ràng buộc ArcFace license cho dự án thương mại. Chạy được trên GPU 16GB với fp8 + offload, hỗ trợ TeaCache và WaveSpeed tăng tốc inference. Dựa trên PuLID - phương pháp face identity customization tuning-free được chấp nhận tại NeurIPS 2024.

comfyuifluxface-identity
6 phút đọc