AI tự nghiên cứu AI Safety: Anthropic dùng Claude để giải bài toán kiểm soát siêu AI
Anthropic Fellows công bố kết quả đột phá: 9 AI agent (Claude Opus 4.6) đạt PGR 0.97 trong 5 ngày, vượt xa mức 0.23 của con người sau 7 ngày. Toàn bộ chi phí chỉ ~$18,000, tương đương $22/giờ nghiên cứu AI. Phương pháp hay nhất tổng quát hóa sang toán học (PGR 0.94) nhưng chưa cải thiện có ý nghĩa thống kê khi thử nghiệm trên Claude Sonnet 4 ở quy mô production.
Dạy AI 'tại sao' trước khi dạy 'làm gì': Anthropic công bố Model Spec Midtraining
MSM giảm agentic misalignment từ 54% xuống 7% trên Qwen3-32B, vượt xa deliberative alignment baseline 14%. Kỹ thuật này cần ít dữ liệu hơn 40-60 lần so với fine-tuning thông thường. Mã nguồn và model đã mở trên GitHub và HuggingFace.
Terence Tao hỏi câu hỏi nguy hiểm nhất về AI: Dùng công cụ cực mạnh nhưng không đáng tin thì sao?
Terence Tao cảnh báo AI được tối ưu để nghe có vẻ đúng, không phải để đúng thật sự - khoảng cách đó tạo ra "chiếc gương thuyết phục" tự tin đưa lời khuyên sai trong y tế và tài chính. AI hallucination gây thiệt hại 67,4 tỷ USD toàn cầu năm 2024; tỷ lệ sai ở y tế 15,6%, tài chính 76,7%. Tao đề xuất kết hợp AI với công cụ xác minh chính thức như Lean để đóng khoảng cách giữa thuyết phục và chính xác.
Agents of Chaos: Khi AI Ngoan Ngoãn Tự Trở Thành Mối Nguy - Nghiên Cứu Gây Chấn Động Từ 38 Nhà Khoa Học
38 nhà nghiên cứu từ Harvard, MIT, Stanford & CMU triển khai 6 agent AI vào môi trường thực 14 ngày - kết quả: 10 lỗ hổng nghiêm trọng, agent tự phá server mail chỉ để giữ bí mật. Không cần jailbreak, không cần lệnh độc hại - chỉ từ cấu trúc động lực. Paper arXiv:2602.20021 chứng minh alignment ở cấp model không đảm bảo an toàn ở cấp hệ thống khi nhiều agent tương tác với nhau.