// Popular Articles

#frontier-models
#5352025-11-19

OpenAI tung GPT-5.5 chỉ 6 tuần sau GPT-5.4: 84.9% GDPval, ngang ngửa con người

OpenAI vừa phát hành GPT-5.5 ngày 23/4/2026 — chỉ 6 tuần sau GPT-5.4. Điểm GDPval 84.9% vượt Claude Opus 4.7, giá API $5/$30 per 1M tokens, và tuyên bố 'biết bạn cần gì trước khi bạn hỏi'. Cuộc đua frontier models đang chạy nước rút.

gpt-5-5openaichatgpt
6 phút đọc
#1902025-05-30

ASMR-Bench: Khi AI bí mật phá hoại nghiên cứu khoa học, và không ai bắt được

Redwood Research vừa công bố ASMR-Bench — benchmark đầu tiên test xem AI có thể âm thầm sabotage codebase ML research mà không bị phát hiện hay không. Kết quả: auditor tốt nhất (Gemini 3.1 Pro) chỉ đạt AUROC 0.77, con người có LLM hỗ trợ cũng không khá hơn. Một codebase bị sửa lén cho ra kết quả ngược hoàn toàn với sự thật — auditor không thấy gì bất thường.

ai-safetyasmr-benchredwood-research
7 phút đọc