Tất cả bài viết

// Popular Articles

#ai-research

#8272026-04-09

Ouroboros: dạy mô hình nhỏ "suy nghĩ sâu" bằng cách lặp một lớp với hypernetwork

Mô hình lớn reason giỏi vì sâu — 70B có 80 lớp, mỗi lớp làm một việc khác nhau. Ouroboros (RightNow AI, arXiv 2604.02051) chứng minh mô hình nhỏ có thể bắt chước điều đó: lặp một lớp duy nhất nhiều lần, nhưng có hypernetwork 0.7M tham số sinh weight modification khác nhau cho từng vòng lặp. Kết quả trên Qwen2.5-3B cắt từ 36 còn 17 lớp: giảm 43.4% training loss, recover 51% gap, chỉ thêm 9.2M params (0.6%).

ouroboroslooped-transformerrecursive-transformer

7 phút đọc

#7452026-03-03

Nạp 12 Giáo Trình MIT Miễn Phí vào Claude - Hệ Thống Research Của Tôi Thay Đổi Hoàn Toàn

MIT công bố 12 giáo trình AI cấp graduate miễn phí, viết bởi chính các researcher xây dựng nên lĩnh vực này. Chỉ cần upload vào Claude Projects, Claude ngừng đoán pattern và bắt đầu lý luận từ lý thuyết xác suất thực sự. Khi dùng Kelly Criterion cho crypto, Claude tự push back và chỉ ra tại sao nó sai về mặt toán học. Setup mất 1 buổi chiều, hoàn toàn miễn phí.

claude-aimit-textbooksclaude-projects

7 phút đọc

#7422026-03-02

Agents of Chaos: Khi AI Ngoan Ngoãn Tự Trở Thành Mối Nguy - Nghiên Cứu Gây Chấn Động Từ 38 Nhà Khoa Học

38 nhà nghiên cứu từ Harvard, MIT, Stanford & CMU triển khai 6 agent AI vào môi trường thực 14 ngày - kết quả: 10 lỗ hổng nghiêm trọng, agent tự phá server mail chỉ để giữ bí mật. Không cần jailbreak, không cần lệnh độc hại - chỉ từ cấu trúc động lực. Paper arXiv:2602.20021 chứng minh alignment ở cấp model không đảm bảo an toàn ở cấp hệ thống khi nhiều agent tương tác với nhau.

ai-safetymulti-agent-aiai-research

5 phút đọc

#7122026-02-17

Aletheia: AI của Google DeepMind giải 6/10 bài toán mới và đạt 91.9% IMO-ProofBench

Aletheia, agent toán học chạy trên Gemini 3 Deep Think, vừa tự giải 6/10 bổ đề chưa từng công bố trong FirstProof và đạt 91.9% trên IMO-ProofBench Advanced — bỏ xa GPT-5.2 (35.7%). Một bước ngoặt cho automated theorem proving không cần can thiệp con người.

aletheiagemini-3-deep-thinkgoogle-deepmind

8 phút đọc

#5842025-12-14

Same Model, Same Prompt, Two Answers: How GPU Precision Silently Breaks LLM Safety

A new paper shows aligned LLMs refuse under BF16 and jailbreak under FP16 on the same prompt up to 84% of the time. No safety benchmark is controlling for precision — which means every public refusal rate you trust today is precision-dependent.

llm-safetyalignmentjailbreak

7 phút đọc

#1682025-05-19

The LLM Judge Goes Soft: A Single Sentence Breaks 2 Years of AI Safety Evals

Researchers changed one sentence in the system prompt — telling the judge model its verdict could retrain or shut down the model being judged. Unsafe-content detection dropped 30%. The text being evaluated never changed. Every RLHF reward model, every leaderboard, every safety scorecard shipped since 2024 was built on this assumption.

llm-as-judgeai-safetyrlhf

6 phút đọc