// Popular Articles
CoInteract: Alibaba & Tsinghua bắt tay dạy AI cách cầm nắm đồ vật như người thật
CoInteract là framework mới từ Alibaba Group + Tsinghua, sinh video người cầm sản phẩm từ 2 ảnh tĩnh + audio. Điểm đặc biệt: Human-Aware MoE cho tay/mặt và dual-stream co-generation loại bỏ hiện tượng tay xuyên qua vật — với chi phí inference bằng 0.
ERNIE-Image: Baidu mở mã nguồn mô hình text-to-image 8B chạy trên 1 GPU 24GB, đè cả FLUX.2 ở khả năng render chữ
Baidu vừa đưa ERNIE-Image lên ERNIE Bot và mở mã nguồn dưới Apache 2.0. Mô hình 8B DiT này dẫn đầu open-weights ở GenEval, OneIG và LongTextBench, render chữ tiếng Anh và tiếng Trung sắc nét trong cùng một lần inference, chạy đủ trên một consumer GPU 24GB và đã được 50+ nền tảng sáng tạo tích hợp.
Baidu mở mã nguồn ERNIE-Image 8B: mô hình text-to-image chạy trên GPU tiêu dùng, fine-tune thoải mái
Baidu vừa open-source ERNIE-Image — Diffusion Transformer 8B, Apache 2.0, chạy 24GB VRAM, đánh bại FLUX.2-klein và Qwen-Image trên GenEval. Rendering chữ Trung + Nhật cực đậm, tùy biến được cho brand riêng.