Tất cả bài viết

// Popular Articles

#qwen3-6

#8452026-04-17

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Kai Stephens drops Carnice-V2-27b, a fully merged BF16 fine-tune of Qwen3.6-27B aimed at the Hermes-Agent harness. Apache 2.0, GGUF quants from 9.4 GB, and benchmark deltas that put it ahead of its base on IFEval — here is what is actually inside it and how to run it on a 3090.

carnice-v2-27bqwen3-6open-source-llm

6 phút đọc

#7542026-03-08

Qwen3.6 35B chạy 164 tok/s trên creative writing với DFlash: kỷ lục mới của open-source MoE

Elliot Arledge công bố benchmark single-stream: Qwen3.6-35B-A3B (3B active) + DFlash drafter ở c=1 đạt 164 tokens/sec decode trên prompt creative writing — vượt xa con số 60-90 tok/s mà DGX Spark báo cáo, cho thấy combo MoE sparse + block-diffusion speculative decoding đang mở ra một trần tốc độ mới cho LLM 35B chạy local.

qwen3-6dflashspeculative-decoding

7 phút đọc

#5182025-11-10

Unsloth Studio chạy 2-bit Qwen3.6-27B trên 12GB RAM — triage 15 GitHub issue, gọi 26 tool call local

Bản GGUF 2-bit của Qwen3.6-27B vừa được Unsloth demo: 26 tool call, triage 15 GitHub issue kèm fix, repro 3 bug mới nhất trong repo — tất cả local với 12GB RAM. Studio cũng được làm mới UI với Data Recipes, Model Arena và sandbox code execution kiểu Claude Artifacts.

unsloth-studioqwen3-6local-llm

7 phút đọc

#5042025-11-03

Qwen3.6-27B chạy local: benchmark 4 setup từ RTX 4090 đến DGX Spark

Qwen3.6-27B vừa ra mắt ngày 22/04 — một dense model đánh bại Qwen3.5-397B MoE trên coding benchmark. Nhưng nó chạy nhanh cỡ nào trên phần cứng local? Dev @stevibe bench 4 setup cùng lúc: RTX 5090 đạt 51.83 tok/s, M2 Ultra có TTFT thấp nhất chỉ 216ms, còn DGX Spark 128GB lại chậm bất ngờ với 11.08 tok/s. Bandwidth là ông vua.

qwen3-6local-llmllama-cpp

7 phút đọc

#4962025-10-30

Qwen3.6-27B chạy 256K context trên RTX 4090: kiến trúc hybrid đổi luật chơi local LLM

Một chiếc RTX 4090 24GB vừa chạy được 256K context với Qwen3.6-27B nhờ 48/64 lớp là Gated DeltaNet linear attention. Model 16.8GB + KV 4.6GB = 22GB, sinh 37 tok/s, còn hạ 397B MoE trên nhiều benchmark coding.

qwen3-6local-llmhybrid-attention

7 phút đọc

#4752025-10-20

Qwen3.6-27B chạy local 18GB RAM, vượt mặt Qwen3.5-397B trên benchmark coding

Alibaba ra mắt Qwen3.6-27B ngày 22/04/2026: dense model 27B mở Apache 2.0, chạy local trên 18GB RAM qua Unsloth Dynamic GGUFs, vượt mô hình tiền nhiệm 397B-A17B trên SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0 và SkillsBench. Context 262K token, native multimodal, hybrid thinking, hỗ trợ 201 ngôn ngữ.

qwen3-6qwen3-6-27bunsloth

7 phút đọc

#4682025-10-16

Qwen3.6-27B đã live trong Atomic Bot: model 27B đánh bại MoE 397B trên coding benchmark

Alibaba vừa drop Qwen3.6-27B — dense model 27B Apache-2.0 vượt flagship cũ 397B-A17B trên SWE-bench, Terminal-Bench và SkillsBench. Atomic Bot ship one-click cho OpenClaw + Hermes ngay trong ngày, chạy local 1-click, miễn phí.

qwen3-6alibaba-qwenopen-source-llm

7 phút đọc

#4482025-10-07

Qwen3.6 35B vs 27B trên MacBook M5 Max với TurboQuant: tốc độ hay chất lượng?

Một benchmark thực chiến so sánh Qwen3.6 35B-A3B (MoE) và Qwen3.6 27B (dense thinking) chạy local trên MacBook Pro M5 Max 64GB RAM với KV-cache nén bằng Google TurboQuant. Kết quả hé lộ trade-off rõ ràng giữa throughput và chất lượng planning.

qwen3-6turboquantlocal-llm

6 phút đọc

#4422025-10-04

200 tok/s, 49W: Qwen3.6-27B-FP8 Runs Flagship Coding on a Single DGX Spark

A day after Alibaba shipped Qwen3.6-27B, engineer Mitko Vasilev posted a number that should make every indie AI builder look twice: 200 tokens/sec peak, 136 tok/s average, 256k context, 10 concurrent agents — on one NVIDIA GB10 drawing just 49 watts. Here is what the stack is doing and why the tok/s-per-watt curve just bent.

qwen3-6dgx-sparkgb10

6 phút đọc

#4292025-09-27

Qwen3.6-27B: Mô hình dense 27B đánh bại chính 397B của Qwen trên coding benchmarks

Alibaba vừa release Qwen3.6-27B — một mô hình dense 27B open-source (Apache 2.0) vượt qua chính flagship 397B của họ trên các coding benchmark quan trọng. Nhẹ hơn ~15 lần, chạy local trên 1 GPU, đa mô-thức, có fast mode và deep reasoning mode.

qwen3-6open-source-llmcoding-ai

7 phút đọc

#4042025-09-15

Qwen3.6-27B ra mắt: mô hình dense đa phương thức mạnh hơn cả bản MoE 35B

Alibaba vừa open-source Qwen3.6-27B dưới Apache 2.0 — một mô hình dense 27B tích hợp sẵn vision encoder, xử lý ảnh/video/text trong một checkpoint duy nhất, và đánh bại cả bản MoE 35B-A3B ở gần như mọi benchmark coding, reasoning lẫn VLM.

qwenqwen3-6open-source-llm

7 phút đọc

#4032025-09-14

Qwen3.6-27B: Dense, open-source, và đập tan flagship MoE 397B của chính Qwen

Alibaba mở mã Qwen3.6-27B — mô hình dense 27B với SWE-bench Verified 77.2, Terminal-Bench 2.0 ngang Claude 4.5 Opus, context 262K (mở rộng 1M), Apache 2.0. Nhỏ hơn 14× so với Qwen3.5-397B-A17B nhưng dẫn đầu mọi benchmark coding chính.

qwen3-6alibaba-qwenopen-source-llm

7 phút đọc

#3152025-08-01

Qwen3.6-35B-A3B: Alibaba mở mã nguồn MoE 35B chỉ dùng 3B tham số, 262K context, chạy trên laptop

Alibaba vừa open-source Qwen3.6-35B-A3B theo Apache 2.0: 35B tham số tổng, chỉ 3B kích hoạt mỗi token, context 262K, đa phương thức gốc, đạt 73.4 SWE-bench Verified và 51.5 Terminal-Bench 2.0 — vượt nhiều mô hình dense lớn gấp 10 lần.

qwen3-6alibabaopen-source-llm

7 phút đọc

#2592025-07-04

DFlash cho Qwen3.6-35B-A3B chính thức GA: speculative decoding 2.9× nhanh hơn, drafter chỉ 0.5B tham số

Z Lab vừa release bản final DFlash drafter cho Qwen3.6-35B-A3B — block diffusion 0.5B params đạt 2.9× speedup trên Math500, vượt EAGLE-3 hơn 2.5×. Cộng đồng đã chạy preview từ trước khi training xong, giờ weights chính thức finalized.

dflashqwen3-6speculative-decoding

7 phút đọc

#372025-03-15

2-bit Qwen3.6-35B-A3B làm bug hunt cả repo — chạy local trong Unsloth Studio với ~13GB RAM

Unsloth vừa khoe bản 2-bit Qwen3.6-35B-A3B GGUF hoàn tất một buổi bug hunt đầy đủ: thu evidence, repro lỗi, fix, viết test và draft PR writeup — với 30+ tool call, 20 website và thực thi Python, tất cả chạy local trong Unsloth Studio. Đây là cú đấm mạnh vào narrative "muốn agent coding tốt thì phải gọi API cloud".

qwen3-6unslothlocal-llm

7 phút đọc

#292025-03-11

Alibaba ra mắt Qwen3.6-35B-A3B: 3B tham số active, Apache 2.0, đè bẹp Gemma 4-31B trên coding benchmark

Alibaba vừa thả Qwen3.6-35B-A3B — model MoE 35B tổng, chỉ 3B active, mở hoàn toàn dưới Apache 2.0. Điểm SWE-bench Verified 73.4 (Gemma 4-31B: 52.0), Terminal-Bench 2.0 51.5, multimodal vượt Claude Sonnet 4.5 ở nhiều hạng mục. Đây là cú đánh thẳng vào thị trường agentic coding open-weight.

qwen3-6qwen3-6-35b-a3balibaba

7 phút đọc