Tất cả bài viết

// Popular Articles

#grammar-constrained-decoding

#8042026-03-31

Qwen 3.6 nghĩ quá lâu — cú hack grammar cắt 22× token think mà không mất accuracy

Một dev trên X áp grammar nhỏ vào block <think> của Qwen 3.6: HumanEval+ giảm 22× token think, accuracy giữ nguyên; LiveCodeBench public +14% pass@1 với 5× ít token. Pure inference-time, không train lại, không đụng weights.

qwen-3-6local-llmgrammar-constrained-decoding

7 phút đọc