// Popular Articles
IceCache: giữ KV-cache GPU gần như hằng số cho long-context LLM, giữ 99% accuracy với 256 token budget
IceCache (ICLR 2026) group token theo ngữ nghĩa qua DCI-tree rồi offload sang CPU, chỉ giữ top-k page trên GPU. Kết quả: 99% accuracy full-cache ở budget 256 token, ngang hoặc vượt 6 SOTA baseline với 25% KV budget.
OpenGame: 1 câu prompt, ra nguyên project game web chơi được luôn
CUHK MMLab vừa mở mã OpenGame — framework agentic đầu tiên biến 1 câu mô tả thành project game web đầy đủ engine, real-time loop và state xuyên file. Ăn đứt Cursor + Claude Sonnet 4.6 trên benchmark 150 prompt. GameCoder-27B open-weights đi kèm đã vượt GPT-5.1 và Gemini 3.1 Pro ở hai chỉ số chính.
Qwen3.6-27B chạy local: benchmark 4 setup từ RTX 4090 đến DGX Spark
Qwen3.6-27B vừa ra mắt ngày 22/04 — một dense model đánh bại Qwen3.5-397B MoE trên coding benchmark. Nhưng nó chạy nhanh cỡ nào trên phần cứng local? Dev @stevibe bench 4 setup cùng lúc: RTX 5090 đạt 51.83 tok/s, M2 Ultra có TTFT thấp nhất chỉ 216ms, còn DGX Spark 128GB lại chậm bất ngờ với 11.08 tok/s. Bandwidth là ông vua.
GLM-5.1 ra mắt: model open-weight đầu tiên vượt Opus 4.6 trên SWE-Bench Pro, chạy được trên Mac Studio 256GB
Z.AI công bố GLM-5.1 — MoE 754B params, MIT license, đạt 58.4 trên SWE-Bench Pro (vượt Claude Opus 4.6 và GPT-5.4), duy trì agentic execution 8 giờ liên tục và chạy được local trên Mac Studio 256GB ở 18.47 t/s. BytePlus đã bundle vào ModelArk Coding Plan cùng 5 model elite khác.
Claude Vừa Có Biểu Đồ & Sơ Đồ Tương Tác Ngay Trong Chat — Miễn Phí Cho Mọi Plan
Anthropic vừa mở beta tính năng vẽ biểu đồ, sơ đồ và visualization tương tác ngay trong khung chat của Claude. Khác với các tin đồn trên mạng xã hội, tính năng này mở cho mọi plan (kể cả Free) chứ không riêng gì paid plan, và hiện đang bị tắt trong Cowork sessions. Đây là pha phản đòn thẳng mặt Gemini Ultra 200 USD/tháng.
CoInteract: Alibaba & Tsinghua bắt tay dạy AI cách cầm nắm đồ vật như người thật
CoInteract là framework mới từ Alibaba Group + Tsinghua, sinh video người cầm sản phẩm từ 2 ảnh tĩnh + audio. Điểm đặc biệt: Human-Aware MoE cho tay/mặt và dual-stream co-generation loại bỏ hiện tượng tay xuyên qua vật — với chi phí inference bằng 0.
BenchLocal v0.2.2 thêm auto-update — và v0.2.3 vừa chạy thử luôn
Steven Lei (@stevibe) vừa ship in-app self-update cho BenchLocal — công cụ desktop benchmark LLM local — rồi verify nó bằng cách đẩy v0.2.3 qua chính cái updater đó, cùng ngày 23/04/2026.
ERNIE-Image: Baidu mở mã nguồn mô hình text-to-image 8B chạy trên 1 GPU 24GB, đè cả FLUX.2 ở khả năng render chữ
Baidu vừa đưa ERNIE-Image lên ERNIE Bot và mở mã nguồn dưới Apache 2.0. Mô hình 8B DiT này dẫn đầu open-weights ở GenEval, OneIG và LongTextBench, render chữ tiếng Anh và tiếng Trung sắc nét trong cùng một lần inference, chạy đủ trên một consumer GPU 24GB và đã được 50+ nền tảng sáng tạo tích hợp.
FilmArena.ai ra mắt: Benchmark cho AI sáng tạo + sandbox 40+ model trong một tab
Koyal (YC) vừa ship FilmArena.ai — một arena blind-vote cho 40+ model ảnh/video SOTA và một sandbox gom mọi model vào một giao diện, một giá. 2M+ vote từ 190 quốc gia, re-rank mỗi tuần. GPT Image 2 dẫn image-editing, Nano Banana 2 vẫn thắng animated, Veo 3.1 Fast vượt bản full ở realistic.
Qwen3.6-27B chạy local 18GB RAM, vượt mặt Qwen3.5-397B trên benchmark coding
Alibaba ra mắt Qwen3.6-27B ngày 22/04/2026: dense model 27B mở Apache 2.0, chạy local trên 18GB RAM qua Unsloth Dynamic GGUFs, vượt mô hình tiền nhiệm 397B-A17B trên SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0 và SkillsBench. Context 262K token, native multimodal, hybrid thinking, hỗ trợ 201 ngôn ngữ.