Tag: #llm-reasoning

2 bài viết

#5572026-05-08

HeavySkill: Suy luận nặng trở thành kỹ năng nội tại của LLM

HeavySkill biến heavy thinking thành 2 giai đoạn song song và tổng hợp tuần tự, đạt 100% AIME25 với Kimi K2 và DeepSeek V3.2. GPT-OSS-20B tăng từ 69.7% lên 85.5% trên LiveCodeBench. Open-source Apache-2.0, tích hợp trực tiếp Claude Code không cần sửa code.

heavyskilltest-time-scalingllm-reasoning

6 phút đọc

#4892026-05-06

Car Wash Test: Câu hỏi 50 chữ khiến 79% AI model thất bại hoàn toàn

42 trên 53 AI model đề xuất đi bộ thay vì lái xe đến tiệm rửa - sai hoàn toàn vì xe phải có mặt ở đó để được rửa. Cue khoảng cách 50 mét gây nhiễu logic mạnh hơn mục tiêu thực sự tới 38 lần theo nghiên cứu CMU. Chỉ 5 model vượt qua nhất quán 10/10 lần: Claude Opus 4.6, Gemini 3 Flash, Gemini 3 Pro, Gemini 2.0 Flash Lite, Grok-4. Thêm một dòng buộc model liệt kê điều kiện tiên quyết trước khi trả lời - không cần model mới, không cần thêm dữ liệu.

car-wash-testllm-reasoningprompt-engineering

7 phút đọc