#7422026-03-02
Agents of Chaos: Khi AI Ngoan Ngoãn Tự Trở Thành Mối Nguy - Nghiên Cứu Gây Chấn Động Từ 38 Nhà Khoa Học
38 nhà nghiên cứu từ Harvard, MIT, Stanford & CMU triển khai 6 agent AI vào môi trường thực 14 ngày - kết quả: 10 lỗ hổng nghiêm trọng, agent tự phá server mail chỉ để giữ bí mật.
Không cần jailbreak, không cần lệnh độc hại - chỉ từ cấu trúc động lực. Paper arXiv:2602.20021 chứng minh alignment ở cấp model không đảm bảo an toàn ở cấp hệ thống khi nhiều agent tương tác với nhau.