devlog by a solofounder

// Popular Articles

#562025-03-24

Gemma 4 trên MLX trong Ollama: nhanh hơn rõ rệt, con số thật là bao nhiêu?

Một tweet của @thinkverse tóm gọn trend đang nóng trong cộng đồng Apple Silicon: Gemma 4 chạy qua MLX trong Ollama nhanh hơn hẳn trước. Dưới đây là con số thật, bối cảnh Ollama 0.19 + MLX backend, và tại sao Mac 32GB+ đang trở thành máy local-LLM mạnh nhất hiện tại.

gemma-4ollamamlx

7 phút đọc

#482025-03-20

15 LLM Fine-Tuning Techniques Mọi Practitioner Nên Biết (LoRA, DPO, GRPO & Co.)

Từ LoRA tiết kiệm bộ nhớ tới GRPO — động cơ huấn luyện DeepSeek-R1: bản đồ 15 kỹ thuật fine-tune LLM, chia theo 4 họ, khi nào dùng cái gì, và vì sao DPO đang là default alignment 2026.

llm-fine-tuningloraqlora

8 phút đọc

#422025-03-17

GPT-Rosalind: OpenAI tung model AI chuyên biệt đầu tiên cho phát triển thuốc

OpenAI ra mắt GPT-Rosalind ngày 16/04/2026 — model đầu tiên trong series Life Sciences, fine-tuned cho biochemistry, genomics và protein engineering. Mục tiêu: nén timeline 10–15 năm từ target discovery đến phê duyệt thuốc. Launch partners gồm Amgen, Moderna, Allen Institute, Thermo Fisher, Novo Nordisk.

openaigpt-rosalindai-drug-discovery

7 phút đọc

#292025-03-11

Alibaba ra mắt Qwen3.6-35B-A3B: 3B tham số active, Apache 2.0, đè bẹp Gemma 4-31B trên coding benchmark

Alibaba vừa thả Qwen3.6-35B-A3B — model MoE 35B tổng, chỉ 3B active, mở hoàn toàn dưới Apache 2.0. Điểm SWE-bench Verified 73.4 (Gemma 4-31B: 52.0), Terminal-Bench 2.0 51.5, multimodal vượt Claude Sonnet 4.5 ở nhiều hạng mục. Đây là cú đánh thẳng vào thị trường agentic coding open-weight.

qwen3-6qwen3-6-35b-a3balibaba

7 phút đọc

#262025-03-09

Claude Opus 4.7 ra mắt: Anthropic muốn bạn giao việc khó nhất rồi đi chơi

Claude Opus 4.7 ra mắt 16/4/2026: +10.9 điểm SWE-bench Pro so với 4.6, verify output trước khi trả lời, Notion Agent 1/3 tool errors, XBOW visual-acuity 98.5% vs 54.5%. Giá giữ nguyên $5/$25 per 1M tokens.

claude-opus-4-7anthropicai-agents

7 phút đọc

#182025-03-05

Gemma 4 ra mắt: 4 kích cỡ, chạy từ Raspberry Pi đến H100, đánh bại mô hình mở gấp 20 lần

Google DeepMind tung Gemma 4 ngày 2/4/2026 dưới giấy phép Apache 2.0. Bốn mô hình E2B/E4B/26B MoE/31B Dense xếp hạng #3 và #6 trên Arena AI, chạy offline trên điện thoại, laptop và workstation.

6 phút đọc

#42026-05-02

5 Cách Dùng Claude Mà Không Bao Giờ Hết Limit

Claude Pro giới hạn ~44,000 token mỗi 5 tiếng, Max 20x chỉ có 200-800 prompt/window. Chỉ cần 5 thay đổi nhỏ trong workflow, bạn có thể tiết kiệm 60-70% token mà không cần nâng cấp plan. Chiến lược "escalate model" - dùng Haiku brainstorm rồi mới chuyển Opus - tiết kiệm ~67% chi phí mỗi tác vụ. Từ Plan Mode trong Claude Code đến bộ nhớ markdown, đây là framework đã được kiểm chứng qua thực tế.

claude-aiai-productivityclaude-code

7 phút đọc