Tất cả bài viết

// Popular Articles

#deep-learning

#7802026-03-19

Self-Attention vs Cross-Attention bằng tay: cùng thuật toán, khác đúng một input

Tom Yeh (byhand.ai) đặt self-attention và cross-attention cạnh nhau trong cùng một workbook. Khác biệt duy nhất: nguồn của K và V. Score matrix của self là vuông 128×128, của cross là chữ nhật 64×128. Hai cơ chế, một thuật toán.

transformerattention-mechanismself-attention

6 phút đọc

#7162026-02-19

How CNNs See Images: 16 Boxes That Cover the Entire Stack

Tensors, filters, feature maps, stride, padding, channels, pooling, receptive fields — the eight primitives behind every vision model from LeNet to Stable Diffusion. One mental model, with the math made concrete.

cnndeep-learningcomputer-vision

8 phút đọc

#4122025-09-19

Looped Transformer chính là EBM inference: một phương trình, hai thế giới

Looped transformer và Energy-Based Model thực ra cùng một thuật toán gradient descent. Nhưng sự tương đương này không tự động đúng — nó đòi một ràng buộc Jacobian mà transformer thường không thỏa.

looped-transformerenergy-based-modelebt

7 phút đọc

#4072025-09-16

Full Fine-tuning vs Freezing Layers: Khi nào nên đông cứng W₁, W₂?

Full fine-tuning cho model nhiều quyền tự do nhất — nhưng mọi tham số cử động đều phải lưu lại. Freezing layers chấp nhận một sự thật đơn giản: phần lớn các lớp dưới chẳng cần học lại. So sánh hai chiến lược qua analogy MLP của Prof. Tom Yeh, kèm số liệu thực nghiệm 2025.

fine-tuningtransfer-learningdeep-learning

8 phút đọc

#512025-03-22

Google mở mã Magika: model AI nhận diện file type 99% chính xác, 5ms trên CPU

Google vừa open-source Magika — model deep learning 1MB phát hiện 200+ loại file với F1 99%, nhanh 5ms/file chỉ trên CPU. Đang chạy scan hàng trăm tỷ file/tuần trên Gmail, Drive, Safe Browsing và VirusTotal. Version 1.0 vừa ra mắt với engine Rust mới.

magikagoogleopen-source

8 phút đọc