TL;DR

Trick mới đang viral: dùng GPT-Image-2 (OpenAI, ra mắt 21/4/2026) vẽ một schematic chứa toàn bộ camera trajectory — thường là lưới 3×3 với mỗi panel = một shot — rồi đẩy hình đó sang Seedance 2.0 (ByteDance, ra mắt 10/2/2026, GA trên fal 9/4/2026) ở chế độ Image-to-Video. Seedance "unwind" lưới thành 1 video 15 giây với đường đi camera, framing, pacing, character đều khoá theo schematic. Pipeline này tốn ~$1.5–2 mỗi 15s và đang đe doạ trực tiếp text-to-video kiểu cũ.

Có gì mới

Tweet gốc từ @xpg0970 nói thẳng: "GPT-image2 + seedance 2.0 dường như có thể dùng camera trajectory schematic để điều khiển đường đi camera, cho phép sinh video dựa trên hình tham chiếu." Cộng đồng tech (HuggingFace forum, Atlas Cloud blog) đã verify pattern này hoạt động cực ổn định.

Cách hiểu đơn giản: thay vì viết prompt text mô tả camera ("dolly-in, sau đó pan trái...") rồi cầu trời cho video model hiểu đúng, bạn vẽ luôn cái schematic đó ra một bức ảnh duy nhất. GPT-Image-2 đặc biệt giỏi sinh comic page, storyboard grid, sơ đồ có chữ — vốn là gót Achilles của các image model trước. Seedance 2.0 sau đó coi bức ảnh như visual DNA: nhân vật, trang phục, ánh sáng, palette màu, vị trí camera đều khoá theo từng panel.

Vì sao nó quan trọng

Vấn đề kinh điển của text-to-video: bạn ném 1 prompt 200 chữ vào model, nó trả về 1 clip 15s — character đổi outfit giữa chừng, camera trôi vô định, pacing như rút thăm. Mỗi lần retry đốt $1–2.

Pipeline schematic này đảo logic: pacing và camera được lock ở stage image — rẻ, nhanh, dễ chỉnh — trước khi đụng tới video model. So với pipeline cũ (6–8 shot riêng × 5s rồi ghép): thời gian giảm từ 8–15 phút xuống 3–5 phút, chi phí giảm 5–8 lần, character consistency gần như tự miễn phí (vì 9 panel vẽ trên cùng 1 canvas).

Số liệu kỹ thuật

Specs đáng nhớ của Seedance 2.0:

Thuộc tínhGiá trị
Độ dài clip4–15 giây / lần generate
Độ phân giảiTối đa 1080p (fal default 720p)
Aspect ratio16:9, 9:16, 4:3, 3:4, 21:9, 1:1
Reference inputs9 ảnh + 3 video + 3 audio + text (≤12 file)
Native audioCó — sinh cùng 1 render pass, lip-sync, beat sync
Camera controlDolly zoom, rack focus, tracking, POV, handheld
Multi-shot trong 1 clipCó — nhiều cut/transition trong cùng 15s
Giá I2V~$0.127/sec (std), $0.101/sec (fast)
Tổng chi phí 1 episode~$1.5–2 (1 grid GPT-Image-2 + 15s Seedance)

Ngoài lưới 3×3, Seedance còn hỗ trợ motion replication from reference video: tag 1 clip mẫu là @video1, prompt "completely reference all camera movement effects from @video1", model sẽ trích camera signature và áp lên cảnh mới. Đây là phương án "cao cấp" hơn schematic vẽ tay.

So sánh đối thủ

CapabilitySeedance 2.0Kling 3.0Veo 3.1
Max clip15s15s8s, extend được
Max resolution1080p4K4K
Native audioCó (1 pass)Tuỳ workflowChỉ standard model
Reference inputs9 img + 3 vid + 3 audioImages + video3 images
Motion replicationHạn chếStart/end frame
Beat syncNativeKhôngKhông

Trên blind-test Artificial Analysis Video Arena, Seedance 2.0 thực ra thua Alibaba HappyHorse 1.0 ở cả T2V lẫn I2V. Nhưng về directorial control — đặc biệt khả năng nuốt 9-panel storyboard và replicate camera motion — Seedance hiện không có đối thủ trực tiếp.

Use case thực tế

  • Chuyển thể tiểu thuyết sci-fi/fantasy — distill 1 cảnh peak thành 9 beat (demo nổi tiếng: "Operation Guzheng" từ Three-Body Problem).
  • Pre-vis phim — đạo diễn xem trước camera move + lighting trước ngày quay.
  • Story ads e-commerce — 9 feature sản phẩm thành 1 clip 15s cinematic.
  • Dramatize tin breaking — TikTok/Reels/Shorts kể chuyện bằng 9 panel.
  • Concept footage cho game studio — không cần animation pipeline.
  • Fashion campaign — runway ảo, lookbook, virtual try-on.

Hạn chế & giá

  • Cap 1080p, max 15 giây. Cần 4K hoặc clip dài hơn → Kling/Veo.
  • Combined input ≤12 file (9img + 3vid + 3audio).
  • Không upload được mặt người thật (compliance) — phải dùng illustration / virtual character / animal / product.
  • Fast tier yếu director control — slow-mo, dolly, multi-shot thường fail lần đầu.
  • Lưới 12-panel (4×3) nhồi vào 15s thường thấy pacing gấp.
  • GPT-Image-2 API public chỉ mở rộng cho dev đầu tháng 5/2026 — hiện đa số dùng qua ChatGPT web hoặc Codex.

Sắp tới

Cộng đồng skill authors đang mở rộng pipeline drama-director với TTS voiceover, burned-in subtitle, B-roll auto-gen, multi-episode chaining. Hướng đi xa hơn của ngành: từ "clip đơn lẻ wow" chuyển sang sequence-level coherence — temporal stability, character continuity, scene-level logic giữ nhất quán xuyên suốt phim dài. Seedance 2.0 đang được định vị là foundational layer, không phải output cuối.

Schematic-driven video gen đặt ra câu hỏi lớn cho text-to-video thuần: nếu input image làm tốt 80% công việc của video model, liệu các provider chỉ làm T2V có còn cửa? Câu trả lời sẽ rõ trong 6 tháng tới.

Nguồn: @xpg0970 (X), Atlas Cloud, ByteDance Seed, fal, OpenAI.