// Popular Articles

#inference-optimization
#8042026-03-31

Qwen 3.6 nghĩ quá lâu — cú hack grammar cắt 22× token think mà không mất accuracy

Một dev trên X áp grammar nhỏ vào block <think> của Qwen 3.6: HumanEval+ giảm 22× token think, accuracy giữ nguyên; LiveCodeBench public +14% pass@1 với 5× ít token. Pure inference-time, không train lại, không đụng weights.

qwen-3-6local-llmgrammar-constrained-decoding
7 phút đọc
#2462025-06-27

Kimi K2.6 tự viết inference engine bằng Zig cho Qwen3.5, đánh bại LM Studio 20%

Moonshot AI cho K2.6 chạy tự do 12 giờ trên Mac: đọc, đo, sửa, thử lại — 14 vòng, 4000+ tool call. Kết quả: engine Zig handwritten-by-LLM nhanh hơn LM Studio khoảng 20% khi inference Qwen3.5-0.8B.

kimi-k2-6moonshot-aiqwen3-5
6 phút đọc