// Popular Articles
Qwen 3.6 nghĩ quá lâu — cú hack grammar cắt 22× token think mà không mất accuracy
Một dev trên X áp grammar nhỏ vào block <think> của Qwen 3.6: HumanEval+ giảm 22× token think, accuracy giữ nguyên; LiveCodeBench public +14% pass@1 với 5× ít token. Pure inference-time, không train lại, không đụng weights.
8 kỹ thuật prompting để LLM trả lời tốt hơn (không cần đổi model)
Đa số người dùng LLM dừng ở zero-shot — gõ câu hỏi, nhận câu trả lời, xong. Nhưng khi output không đủ tốt, fix đầu tiên không phải nâng model mà là sửa prompt. Đây là 8 kỹ thuật prompting đáng dùng năm 2026, gồm cả ARQ (90.2% tuân thủ chỉ dẫn) và Verbalized Sampling (đa dạng tăng 2x).