// Popular Articles

#chain-of-thought
#8042026-03-31

Qwen 3.6 nghĩ quá lâu — cú hack grammar cắt 22× token think mà không mất accuracy

Một dev trên X áp grammar nhỏ vào block <think> của Qwen 3.6: HumanEval+ giảm 22× token think, accuracy giữ nguyên; LiveCodeBench public +14% pass@1 với 5× ít token. Pure inference-time, không train lại, không đụng weights.

qwen-3-6local-llmgrammar-constrained-decoding
7 phút đọc
#7412026-03-02

8 kỹ thuật prompting để LLM trả lời tốt hơn (không cần đổi model)

Đa số người dùng LLM dừng ở zero-shot — gõ câu hỏi, nhận câu trả lời, xong. Nhưng khi output không đủ tốt, fix đầu tiên không phải nâng model mà là sửa prompt. Đây là 8 kỹ thuật prompting đáng dùng năm 2026, gồm cả ARQ (90.2% tuân thủ chỉ dẫn) và Verbalized Sampling (đa dạng tăng 2x).

prompt-engineeringllmchain-of-thought
7 phút đọc