Tất cả bài viết

// Popular Articles

#diffusion-transformer

#4912025-10-28

CoInteract: Alibaba & Tsinghua bắt tay dạy AI cách cầm nắm đồ vật như người thật

CoInteract là framework mới từ Alibaba Group + Tsinghua, sinh video người cầm sản phẩm từ 2 ảnh tĩnh + audio. Điểm đặc biệt: Human-Aware MoE cho tay/mặt và dual-stream co-generation loại bỏ hiện tượng tay xuyên qua vật — với chi phí inference bằng 0.

cointeractalibabavideo-generation

7 phút đọc

#4782025-10-21

ERNIE-Image: Baidu mở mã nguồn mô hình text-to-image 8B chạy trên 1 GPU 24GB, đè cả FLUX.2 ở khả năng render chữ

Baidu vừa đưa ERNIE-Image lên ERNIE Bot và mở mã nguồn dưới Apache 2.0. Mô hình 8B DiT này dẫn đầu open-weights ở GenEval, OneIG và LongTextBench, render chữ tiếng Anh và tiếng Trung sắc nét trong cùng một lần inference, chạy đủ trên một consumer GPU 24GB và đã được 50+ nền tảng sáng tạo tích hợp.

ernie-imagebaidutext-to-image

7 phút đọc

#3202025-08-04

Baidu mở mã nguồn ERNIE-Image 8B: mô hình text-to-image chạy trên GPU tiêu dùng, fine-tune thoải mái

Baidu vừa open-source ERNIE-Image — Diffusion Transformer 8B, Apache 2.0, chạy 24GB VRAM, đánh bại FLUX.2-klein và Qwen-Image trên GenEval. Rendering chữ Trung + Nhật cực đậm, tùy biến được cho brand riêng.

ernie-imagebaiduopen-source-llm

6 phút đọc