Tất cả bài viết

// Popular Articles

#bridgebench

#2082025-06-08

Claude Opus 4.7 rớt thảm trên BridgeBench: 24% thuật ngữ bịa vẫn được "gật đầu"

BridgeBench vừa cho thấy Claude Opus 4.7 tụt từ rank 1 xuống rank 5 trên BS Benchmark — tỷ lệ đẩy lùi prompt vô lý giảm từ 93% còn 75%, và model chấp nhận thuật ngữ bịa tới 24% lần. Nhưng 4.7 vẫn thắng 4.6 ở 12/14 benchmark khác — đây là một regression chuyên biệt, không phải "nerf" toàn diện.

claude-opus-4-7anthropicbridgebench

7 phút đọc