Thiết kế loops với Claude Fable 5: Self-correction và Memory

TL;DR

2 kỹ thuật để tận dụng tối đa Claude Fable 5 - mô hình Mythos-class mới nhất. Thay vì prompt thẳng và điều hướng thủ công, cách hiệu quả hơn là thiết kế vòng lặp (loops) để model tự sửa lỗi theo phản hồi từ môi trường, và quản lý memory để tích lũy kiến thức qua nhiều session.

Hai thí nghiệm nhỏ nhưng rõ ràng: Parameter Golf và Continual Learning Bench, cho thấy Fable 5 vượt trội đáng kể so với Opus 4.7 và Sonnet 4.6 khi được đặt trong loop thiết kế tốt.

Self-correction loops

Gần đây có nhiều quan tâm đến khái niệm loops trong AI agent. Ý tưởng cốt lõi: thay vì chạy một lần rồi xong, hãy để model chạy - nhận feedback - tự sửa - chạy tiếp cho đến khi đạt mục tiêu.

Trong Claude Code và Claude Managed Agent (CMA), có 2 primitive hỗ trợ pattern này: /goal và Outcomes. Chúng cho phép định nghĩa goal hoặc rubric, rồi để Fable 5 tự hillclimb cho đến khi thỏa mãn điều kiện.

Fable 5 đặc biệt giỏi self-correction trong loop. Khi có rubric rõ ràng, nó chạy → nhận feedback từ môi trường → tự điều chỉnh → tiếp tục - mà không cần can thiệp thủ công.

Thí nghiệm: Parameter Golf

Parameter Golf là thử thách ML engineering mở: train model tốt nhất có thể, artifact giới hạn 16MB, dưới 10 phút trên 8xH100. Đây là loại task đòi hỏi agent phải edit code training, launch training run, poll log, đọc score, rồi quyết định experiment tiếp theo.

Lance dùng CMA để so sánh Fable 5 vs Opus 4.7, với 8xH100 GPUs được cấp như computer use tool. Rubric gồm 9 tiêu chí kiểm tra được. Mỗi test chạy tối đa 8 tiếng, Outcomes grader xác nhận tất cả tiêu chí trước khi cho phép dừng.

Kết quả: Fable 5 cải thiện training pipeline ~6x nhiều hơn Opus 4.7. Fable 5 đặt cược vào các thay đổi cấu trúc lớn và cho thấy sự kiên trì - đẩy qua một quantization regression để đến được win lớn nhất. Opus 4.7 thì ngược lại: experiment đầu ra win nhỏ, sau đó gần như mọi thứ đều theo template cũ - điều chỉnh scalar, đo, giữ nếu tích cực.

Một điểm tinh tế: ai đánh giá kết quả cũng quan trọng. Models có vấn đề khi self-critique trên output của chính mình. Verifier sub-agent giải quyết điều này bằng cách chấm điểm trong một context window độc lập.

Memory qua nhiều session

Memory có thể được xem như một outer loop spanning nhiều session: Claude ghi vào memory trong một session, và những ghi nhớ đó được truy xuất trong các session tương lai.

Lance test Fable 5, Opus 4.7, và Sonnet 4.6 trên Continual Learning Bench 1.0 - benchmark mới đo lường khả năng cải thiện của AI trong online settings. Task: trả lời các câu hỏi sequential với quyền truy cập SQL database, mỗi câu hỏi là một agent session riêng.

Kết quả:

Sonnet 4.6: dừng ở bước 1. Store chỉ là danh sách failure notes và open guesses. Hiếm khi consult lại ghi chú trước.
Opus 4.7: dừng ở bước 3. Tạo schema reference với uncertainty flagged, nhưng verification coverage thấp: 7–33% (median ~17%).
Fable 5: hoàn thành vòng lặp đầy đủ. Verification coverage lên đến 73% (22/30), chắt lọc learnings thành general rules áp dụng được cho task tương lai.

Vòng học tập đầy đủ mà Fable 5 thực hiện: Fail (gặp sai và ghi lại) → Investigate (tìm hiểu tại sao) → Verify (biến diagnosis thành checked fact) → Distill (biến verification thành general rule) → Consult (đọc rule, thay vì re-derive từ đầu).

Takeaway

Thay vì prompt trực tiếp và điều hướng Fable 5, cách hiệu quả hơn thường là thiết kế loops để model tự sửa lỗi theo phản hồi từ môi trường (/goal hoặc Outcomes) và quản lý context của chính nó qua memory.

Đây là pattern tổng quát: đừng micro-manage model - hãy tạo ra môi trường tốt với feedback loop rõ ràng, để model tự hillclimb đến kết quả bạn muốn.

Via: Lance Martin from Anthropic