TL;DR

Claude giới hạn theo cả 2 chiều: window 5 tiếng (Pro: ~44K token, Max 20x: ~220K token) weekly cap (kể từ August 2025). Nếu bạn đang dùng Opus cho mọi thứ và kéo dài 1 chat cả ngày, bạn đang tự đốt quota của mình. 5 bước sau đây giúp bạn thoát khỏi vòng lặp đó - không cần nâng plan.

Vấn đề thật sự không phải thiếu token

Hầu hết người dùng nghĩ họ cần gói đắt hơn khi hết limit. Thực tế, vấn đề là cách dùng sai.

Anthropic đã xác nhận vào tháng 3/2026 rằng Claude Code quotas "đang cạn nhanh hơn dự kiến" - đây là vấn đề phía người dùng, không phải phía hệ thống. Những hành vi phổ biến nhất gây hao token:

  • Dùng Opus để brainstorm và lên ý tưởng (thứ Haiku làm tốt hơn với 1/5 chi phí)
  • Duy trì 1 chat dài cả ngày cho nhiều tác vụ khác nhau
  • Không có memory system - phải giải thích lại từ đầu mỗi session
  • Dùng Claude Code để thiết kế visual trong khi Claude Design quota còn trống

Người dùng biết cách tối ưu có thể tiết kiệm 60-70% token so với người dùng thông thường - mà chất lượng output không giảm.

Bước 1: Plan trước, build sau

Đây là insight quan trọng nhất: text chat không tốn nhiều token. Coding và building mới tốn.

So sánh hai người cùng vibe-code một finance tracking app:

  • Người A: Lên plan 2 phút, phải build lại app 3 lần - tốn ~3x token
  • Người B: Dùng Haiku plan 20 phút, build đúng từ lần đầu - tiết kiệm ~67% chi phí

Trong Claude Code, bạn có thể kích hoạt Plan Mode (nhấn Shift + Tab hai lần hoặc gõ /plan) để Claude chỉ tập trung vào planning mà không thực thi bất cứ thứ gì. Đây là công cụ underrated nhất của Claude Code.

Rule of thumb: Brainstorm và planning - dùng Haiku. Build và execute - mới chuyển Sonnet hoặc Opus.

Bước 2: Quản lý độ dài chat

Một chat dài = Claude phải đọc lại toàn bộ context cũ mỗi lần bạn gửi message mới. Không chỉ tốn token - còn làm giảm chất lượng output vì context bị "nhiễm" bởi các thông tin không liên quan.

Có hai giải pháp hiệu quả:

Dùng Projects: Thay vì 1 chat dài cho 1 project, tạo một Project với nhiều sub-chat. Mỗi lần bắt đầu tác vụ mới = chat mới. Project instructions được load tự động, không cần giải thích lại context. Bạn thậm chí có thể thêm vào project instructions: "Hãy nhắc tôi bắt đầu chat mới khi conversation dài hơn cần thiết."

Dùng Mega Prompt: Với chat cũ muốn chuyển sang chat mới, hỏi Claude: "Tôi sắp chuyển sang chat mới. Viết cho tôi một prompt để resume session này mà không mất context." Claude sẽ tự tổng hợp toàn bộ context thành 1 prompt compact.

Trong Claude Code, dùng /compact để compress conversation history, /clear để reset hoàn toàn, và /btw cho các câu hỏi nhanh mà không muốn đưa vào context.

Bước 3: Xây memory system cho Claude

Mỗi lần phải giải thích lại sở thích, quy tắc, hay context của bạn cho Claude là bạn đang lãng phí token. Giải pháp: 2 file markdown đơn giản.

Instructions.MD - chứa rules và context cố định:

  • Bạn là ai, bạn làm gì
  • Quy tắc viết (ngôn ngữ, tone, format)
  • Workflow preferences
  • Quan trọng: thêm dòng "Update Memory.MD với preferences của tôi theo thời gian."

Memory.MD - "não" của Claude, được cập nhật liên tục:

  • Preferences bạn đã confirm
  • Corrections (ví dụ: "đừng dùng dấu chấm lửng")
  • Patterns từ các session trước

Attach folder này vào Claude Code/Cowork. Từ đó, mỗi khi bạn nói "đừng làm vậy nữa", Claude sẽ tự cập nhật Memory.MD - và nhớ vĩnh viễn qua các session.

Bước 4: Escalate model - không dùng Opus cho mọi thứ

Opus 4.7 tốn gấp 5x Haiku 4.5 ($5/MTok input vs $1/MTok input). Dùng Opus cho 100% tác vụ là lãng phí 90% budget của bạn.

Hệ thống "escalate" đơn giản:

  • Haiku ($1/$5 per MTok) - brainstorm, classify, format, research nhanh
  • Sonnet ($3/$15 per MTok) - coding thông thường, content creation, phân tích medium
  • Opus ($5/$25 per MTok) - chỉ cho 10% tác vụ: reasoning phức tạp, multi-file architecture, final review

Thêm các micro-optimizations:

  • Tắt Extended/Adaptive Thinking trong phần lớn tác vụ - chỉ bật khi thật sự cần
  • Style "Concise" trong Claude settings giúp model trả lời ngắn hơn mà không giảm chất lượng
  • "Low Effort" mode trong Claude Code cho các tác vụ routine
  • Đừng sợ dùng open-source: Kimi và DeepSeek xử lý tốt research scraping, news summary - không cần tốn Claude quota

Bước 5: Dùng đúng tool cho đúng việc

Đây là điều ít người biết: Claude Code/Chat và Claude Design có usage bucket riêng biệt.

Nếu bạn dùng Claude Code để tạo visual hoặc design mockup, bạn đang tốn Code quota trong khi Design quota vẫn còn nguyên. Ngược lại, dùng Claude Design cho coding tasks lại lãng phí Design budget.

Rule: Mỗi tool làm đúng việc nó được thiết kế cho.

Một số tip bổ sung:

  • Extra credits: Thay vì nâng từ Pro ($20) lên Max ($100), bạn có thể mua thêm credits lẻ với giá API rate - thường rẻ hơn nhiều nếu bạn chỉ thỉnh thoảng vượt limit
  • Claude Skills: Xây reusable skills để automate các tác vụ lặp lại - giúp tiết kiệm token đáng kể về dài hạn
  • /usage command:/usage trong Claude Code để xem usage realtime và điều chỉnh trước khi hết limit

Dùng Claude thông minh hơn, không phải nhiều hơn

Framework 5 bước này không phải về việc dùng Claude ít hơn - mà về việc không lãng phí token vào những thứ không tạo ra value. Sau khi áp dụng đủ 5 bước, bạn sẽ thấy rõ sự khác biệt: ít bị interrupt vì hết limit, output chất lượng hơn (context sạch hơn), và chi phí thực tế thấp hơn nhiều so với trước.

Anthropic đang mở rộng GPU capacity và limits có thể sẽ nới lỏng trong tương lai - nhưng trong khi chờ đợi, tối ưu workflow là cách duy nhất để làm chủ tình huống hiện tại.

Nguồn: Claude Help Center, Portkey, Faros AI, Claude Code Best Practices.