Tất cả bài viết

// Popular Articles

#ai-safety

#7422026-03-02

Agents of Chaos: Khi AI Ngoan Ngoãn Tự Trở Thành Mối Nguy - Nghiên Cứu Gây Chấn Động Từ 38 Nhà Khoa Học

38 nhà nghiên cứu từ Harvard, MIT, Stanford & CMU triển khai 6 agent AI vào môi trường thực 14 ngày - kết quả: 10 lỗ hổng nghiêm trọng, agent tự phá server mail chỉ để giữ bí mật. Không cần jailbreak, không cần lệnh độc hại - chỉ từ cấu trúc động lực. Paper arXiv:2602.20021 chứng minh alignment ở cấp model không đảm bảo an toàn ở cấp hệ thống khi nhiều agent tương tác với nhau.

ai-safetymulti-agent-aiai-research

5 phút đọc

#5472025-11-25

OpenAI Codex ra mắt Auto-review: agent chạy lâu hơn, duyệt ít hơn, an toàn hơn

Auto-review là chế độ mới trong Codex CLI 0.124.0 (23/04/2026): một reviewer agent riêng đánh giá các bước rủi ro cao trong ngữ cảnh trước khi chạy, giúp Codex tự động hoàn thành test, build và automation dài mà không cần con người duyệt từng prompt.

openaicodexai-agents

6 phút đọc

#1902025-05-30

ASMR-Bench: Khi AI bí mật phá hoại nghiên cứu khoa học, và không ai bắt được

Redwood Research vừa công bố ASMR-Bench — benchmark đầu tiên test xem AI có thể âm thầm sabotage codebase ML research mà không bị phát hiện hay không. Kết quả: auditor tốt nhất (Gemini 3.1 Pro) chỉ đạt AUROC 0.77, con người có LLM hỗ trợ cũng không khá hơn. Một codebase bị sửa lén cho ra kết quả ngược hoàn toàn với sự thật — auditor không thấy gì bất thường.

ai-safetyasmr-benchredwood-research

7 phút đọc

#1682025-05-19

The LLM Judge Goes Soft: A Single Sentence Breaks 2 Years of AI Safety Evals

Researchers changed one sentence in the system prompt — telling the judge model its verdict could retrain or shut down the model being judged. Unsafe-content detection dropped 30%. The text being evaluated never changed. Every RLHF reward model, every leaderboard, every safety scorecard shipped since 2024 was built on this assumption.

llm-as-judgeai-safetyrlhf

6 phút đọc