Tất cả bài viết

// Popular Articles

#rtx-4090

#4962025-10-30

Qwen3.6-27B chạy 256K context trên RTX 4090: kiến trúc hybrid đổi luật chơi local LLM

Một chiếc RTX 4090 24GB vừa chạy được 256K context với Qwen3.6-27B nhờ 48/64 lớp là Gated DeltaNet linear attention. Model 16.8GB + KV 4.6GB = 22GB, sinh 37 tok/s, còn hạ 397B MoE trên nhiều benchmark coding.

qwen3-6local-llmhybrid-attention

7 phút đọc