// Popular Articles
How CNNs See Images: 16 Boxes That Cover the Entire Stack
Tensors, filters, feature maps, stride, padding, channels, pooling, receptive fields — the eight primitives behind every vision model from LeNet to Stable Diffusion. One mental model, with the math made concrete.
Vision Banana: Google DeepMind biến Nano Banana Pro thành mô hình thị giác đa năng đánh bại SAM 3 và Depth Anything
Bằng cách quy mọi tác vụ dense vision về một bài toán duy nhất — sinh ảnh RGB — nhóm Google DeepMind fine-tune Nano Banana Pro thành Vision Banana, một mô hình đa nhiệm đạt SOTA trên depth, normals và segmentation, vượt mặt cả SAM 3 và Depth Anything mà vẫn giữ nguyên khả năng tạo ảnh.
Vision Banana: Google DeepMind biến image generation thành nền tảng mới cho Computer Vision
Google DeepMind vừa công bố Vision Banana — một model unified được fine-tune nhẹ từ Nano Banana Pro, giải mọi bài toán vision (segmentation, depth, surface normal) bằng cách coi chúng là bài toán sinh ảnh. Và nó vượt qua cả Segment Anything lẫn Depth Anything.
ALICE: Công cụ open-source quản lý dataset YOLO end-to-end cho camera cá nhân
ALICE gộp toàn bộ vòng đời huấn luyện YOLO cho camera nhà — từ hút snapshot Frigate NVR, annotate, dedup pHash, auto-label, train tới export ONNX — vào một web UI duy nhất chạy trên máy bạn.
Ai2 mở toàn bộ WildDet3D: phát hiện 3D từ 1 tấm ảnh duy nhất, dataset 1 triệu ảnh, nhanh gấp 10 lần
Allen Institute for AI vừa release đầy đủ training + inference code của WildDet3D — model monocular 3D detection 1.2B params, đánh bại mọi baseline trên Omni3D (34.2 AP text, 36.4 AP box), xử lý 13.499 category ngoài đời thực chỉ với 12 epoch thay vì 80–120 như trước.
PiLoT: drone tự định vị bằng camera, sai số 1.37m, không cần GPS
Nhóm nghiên cứu từ NUDT, Zhejiang và Westlake vừa công bố PiLoT tại CVPR 2026 — hệ AI ghép trực tiếp video drone vào bản đồ 3D, đạt 25+ FPS real-time và 100% success rate xuyên ngày/đêm, không cần GPS hay IMU.
YOLOE-26: phân vùng ảnh theo prompt ngôn ngữ tự nhiên, real-time trên edge
Ultralytics tung YOLOE-26 — mô hình mở rộng YOLO26 với khả năng instance segmentation theo text prompt, visual prompt hoặc prompt-free, chạy 161 FPS trên T4 GPU. Đây là đối thủ trực tiếp của YOLO-World, Grounding DINO nhưng nhẹ hơn hàng chục lần và giữ nguyên ưu điểm NMS-free của YOLO26.
SAM-3 Lite-Text lands in Transformers: 88% smaller text encoder, same segmentation quality
Hugging Face Transformers now supports SAM-3 Lite-Text — a distilled MobileCLIP student that replaces SAM-3's heavy CLIP ViT-L/14 text encoder, cutting parameters from 353.72M to 42.54M while keeping vision-language segmentation quality intact.
Moondream Lens: Fine-Tune Vision AI Với 20 Ảnh, Đánh Bại GPT-5.4 Trong 54 Phút
Moondream vừa ra mắt Lens — dịch vụ fine-tune chính thức đưa độ chính xác của model vision về production-ready chỉ trong vài giờ. Trường hợp NBA: F1 tăng từ 0.28 lên 0.79, tốn $16.89 và 54 phút, vượt ChatGPT. Không cần GPU, chỉ cần ~20 ảnh.
LingBot-Map: Ant Group mở mã mô hình dựng 3D streaming ~20 FPS chỉ từ 1 camera
Robbyant (Ant Group) mở mã LingBot-Map — mô hình dựng 3D streaming end-to-end chạy ~20 FPS trên chuỗi hơn 10.000 frame, chỉ cần 1 camera RGB. Vượt cả phương pháp offline trên Oxford Spires và ETH3D.