// Popular Articles

#lora
#8272026-04-09

Ouroboros: dạy mô hình nhỏ "suy nghĩ sâu" bằng cách lặp một lớp với hypernetwork

Mô hình lớn reason giỏi vì sâu — 70B có 80 lớp, mỗi lớp làm một việc khác nhau. Ouroboros (RightNow AI, arXiv 2604.02051) chứng minh mô hình nhỏ có thể bắt chước điều đó: lặp một lớp duy nhất nhiều lần, nhưng có hypernetwork 0.7M tham số sinh weight modification khác nhau cho từng vòng lặp. Kết quả trên Qwen2.5-3B cắt từ 36 còn 17 lớp: giảm 43.4% training loss, recover 51% gap, chỉ thêm 9.2M params (0.6%).

ouroboroslooped-transformerrecursive-transformer
7 phút đọc
SDR → HDR ngay trong ComfyUI: LoRA mới cho Qwen Edit 2509 dựa trên nguyên lý LumiVid
#7632026-03-11

SDR → HDR ngay trong ComfyUI: LoRA mới cho Qwen Edit 2509 dựa trên nguyên lý LumiVid

Mohamed Oumoumad — đồng tác giả paper LumiVid và CTO Gear Productions — vừa tung LoRA cá nhân chuyển ảnh SDR sang HDR scene-linear ngay trong ComfyUI, kèm workflow và grading node. Đây là bản port của kỹ thuật LogC3 latent alignment vốn dùng cho video LTX-2.3 sang model edit ảnh Qwen Edit 2509.

comfyuiqwen-edit-2509hdr
6 phút đọc
#6412026-01-13

Deadmesh: Internet over LoRa — biến mesh Meshtastic của bạn thành cổng Internet thật sự

Deadmesh là cây cầu open-source biến mạng Meshtastic LoRa thành Internet gateway dùng được: chỉ một node có uplink (fiber, 4G, Starlink), cả mesh dùng HTTP/HTTPS/email/SOCKS qua LoRa mà không cần sửa app. $30 phần cứng, không phí hàng tháng.

deadmeshmeshtasticlora
7 phút đọc
MetaClaw: agent AI tự học, tự cập nhật trọng số ngay trong lúc bạn trò chuyện — không cần GPU
#3952025-09-10

MetaClaw: agent AI tự học, tự cập nhật trọng số ngay trong lúc bạn trò chuyện — không cần GPU

MetaClaw biến mỗi cuộc hội thoại thành tín hiệu học. Vừa chèn skill vào prompt tức thời, vừa fine-tune LoRA trên cloud trong lúc bạn ngủ hoặc họp. Kimi-K2.5 nhảy từ 21.4% lên 40.6%, gần bằng GPT-5.2 baseline.

metaclawllm-agentonline-rl
8 phút đọc
#482025-03-20

15 LLM Fine-Tuning Techniques Mọi Practitioner Nên Biết (LoRA, DPO, GRPO & Co.)

Từ LoRA tiết kiệm bộ nhớ tới GRPO — động cơ huấn luyện DeepSeek-R1: bản đồ 15 kỹ thuật fine-tune LLM, chia theo 4 họ, khi nào dùng cái gì, và vì sao DPO đang là default alignment 2026.

llm-fine-tuningloraqlora
8 phút đọc