// Popular Articles
Gemma 4 trên MLX trong Ollama: nhanh hơn rõ rệt, con số thật là bao nhiêu?
Một tweet của @thinkverse tóm gọn trend đang nóng trong cộng đồng Apple Silicon: Gemma 4 chạy qua MLX trong Ollama nhanh hơn hẳn trước. Dưới đây là con số thật, bối cảnh Ollama 0.19 + MLX backend, và tại sao Mac 32GB+ đang trở thành máy local-LLM mạnh nhất hiện tại.
15 LLM Fine-Tuning Techniques Mọi Practitioner Nên Biết (LoRA, DPO, GRPO & Co.)
Từ LoRA tiết kiệm bộ nhớ tới GRPO — động cơ huấn luyện DeepSeek-R1: bản đồ 15 kỹ thuật fine-tune LLM, chia theo 4 họ, khi nào dùng cái gì, và vì sao DPO đang là default alignment 2026.
GPT-Rosalind: OpenAI tung model AI chuyên biệt đầu tiên cho phát triển thuốc
OpenAI ra mắt GPT-Rosalind ngày 16/04/2026 — model đầu tiên trong series Life Sciences, fine-tuned cho biochemistry, genomics và protein engineering. Mục tiêu: nén timeline 10–15 năm từ target discovery đến phê duyệt thuốc. Launch partners gồm Amgen, Moderna, Allen Institute, Thermo Fisher, Novo Nordisk.
Alibaba ra mắt Qwen3.6-35B-A3B: 3B tham số active, Apache 2.0, đè bẹp Gemma 4-31B trên coding benchmark
Alibaba vừa thả Qwen3.6-35B-A3B — model MoE 35B tổng, chỉ 3B active, mở hoàn toàn dưới Apache 2.0. Điểm SWE-bench Verified 73.4 (Gemma 4-31B: 52.0), Terminal-Bench 2.0 51.5, multimodal vượt Claude Sonnet 4.5 ở nhiều hạng mục. Đây là cú đánh thẳng vào thị trường agentic coding open-weight.
Claude Opus 4.7 ra mắt: Anthropic muốn bạn giao việc khó nhất rồi đi chơi
Claude Opus 4.7 ra mắt 16/4/2026: +10.9 điểm SWE-bench Pro so với 4.6, verify output trước khi trả lời, Notion Agent 1/3 tool errors, XBOW visual-acuity 98.5% vs 54.5%. Giá giữ nguyên $5/$25 per 1M tokens.
Gemma 4 ra mắt: 4 kích cỡ, chạy từ Raspberry Pi đến H100, đánh bại mô hình mở gấp 20 lần
Google DeepMind tung Gemma 4 ngày 2/4/2026 dưới giấy phép Apache 2.0. Bốn mô hình E2B/E4B/26B MoE/31B Dense xếp hạng #3 và #6 trên Arena AI, chạy offline trên điện thoại, laptop và workstation.
5 Cách Dùng Claude Mà Không Bao Giờ Hết Limit
Claude Pro giới hạn ~44,000 token mỗi 5 tiếng, Max 20x chỉ có 200-800 prompt/window. Chỉ cần 5 thay đổi nhỏ trong workflow, bạn có thể tiết kiệm 60-70% token mà không cần nâng cấp plan. Chiến lược "escalate model" - dùng Haiku brainstorm rồi mới chuyển Opus - tiết kiệm ~67% chi phí mỗi tác vụ. Từ Plan Mode trong Claude Code đến bộ nhớ markdown, đây là framework đã được kiểm chứng qua thực tế.