HeavySkill: Suy luận nặng trở thành kỹ năng nội tại của LLM
HeavySkill biến heavy thinking thành 2 giai đoạn song song và tổng hợp tuần tự, đạt 100% AIME25 với Kimi K2 và DeepSeek V3.2. GPT-OSS-20B tăng từ 69.7% lên 85.5% trên LiveCodeBench. Open-source Apache-2.0, tích hợp trực tiếp Claude Code không cần sửa code.
Car Wash Test: Câu hỏi 50 chữ khiến 79% AI model thất bại hoàn toàn
42 trên 53 AI model đề xuất đi bộ thay vì lái xe đến tiệm rửa - sai hoàn toàn vì xe phải có mặt ở đó để được rửa. Cue khoảng cách 50 mét gây nhiễu logic mạnh hơn mục tiêu thực sự tới 38 lần theo nghiên cứu CMU. Chỉ 5 model vượt qua nhất quán 10/10 lần: Claude Opus 4.6, Gemini 3 Flash, Gemini 3 Pro, Gemini 2.0 Flash Lite, Grok-4. Thêm một dòng buộc model liệt kê điều kiện tiên quyết trước khi trả lời - không cần model mới, không cần thêm dữ liệu.