Tất cả bài viết

// Popular Articles

#gemma-4

#8472026-04-18

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

huihui-ai vừa thả Huihui4-8B-A4B — bản MoE rút gọn của Gemma-4-26B-A4B-it: pruning 128 → 32 expert, SFT 10.900 step, perplexity 1.0035 (đánh bại base 1.5964). Fit gọn dưới 18GB VRAM FP16, 6–9GB INT4. Apache 2.0, chạy được Ollama một dòng.

huihui4gemma-4moe

6 phút đọc

#8132026-04-03

Free CLI Agent: Pi + Ollama + Gemma 4 + Parallel Search MCP — $0, No API Keys

Parallel just published a recipe for a fully free, fully local CLI agent: Mario Zechner's Pi harness, Gemma 4 on Ollama, and Parallel's no-key Search MCP. Result: a one-file `brief` CLI that prints a sourced morning-coffee summary on any topic — at $0 in API charges and zero keys in your shell history.

parallel-search-mcpgemma-4ollama

6 phút đọc

#7862026-03-22

Gemma 4 26B A4B: con quái vật mã nguồn mở Google vừa thả ra cho máy tính cá nhân

Google DeepMind vừa phát hành Gemma 4 — bộ 4 mô hình mở dưới giấy phép Apache 2.0. Phiên bản 26B A4B dùng kiến trúc Mixture-of-Experts: 25.2 tỷ tham số tổng nhưng chỉ kích hoạt 3.8 tỷ mỗi token, đạt ELO 1441 trên Arena AI (top 6 mô hình mở thế giới), context 256K, đa phương thức text + ảnh + video, hỗ trợ 140+ ngôn ngữ. Quan trọng nhất: chạy gọn trên MacBook M4 Max hoặc RTX consumer với 16-18GB RAM ở quant 4-bit.

gemma-4google-deepmindopen-source-llm

7 phút đọc

#6552026-01-20

Chạy Claude Code miễn phí ngay trên máy với Gemma 4 + Ollama (setup 10 phút)

Google vừa phát hành Gemma 4 với Apache 2.0, context 256K và function calling native. Kết hợp với Ollama, bạn có thể biến Claude Code thành một agent coding chạy 100% local: miễn phí, riêng tư, offline — setup dưới 10 phút.

gemma-4claude-codeollama

7 phút đọc

#6172026-01-01

AI agent sống trong browser: kiến trúc Transformers.js + Gemma 4 của Nico Martin

Nico Martin open-source một Chrome extension chạy AI agent hoàn toàn local bằng Gemma 4 E2B trên Transformers.js + WebGPU. Đọc tabs, history, page content, tool calling — không server, không API key. Phần hay không phải là nó chạy được, mà là cách nhét LLM đa gigabyte vào service worker của extension và chia sẻ qua mọi tab.

gemma-4transformers-jschrome-extension

7 phút đọc

#4972025-10-31

Claude Code chạy miễn phí: 3 setup GLM 5.1, Gemma 4 và Elephant Alpha

Claude Code giờ đã nói được ngôn ngữ của Ollama và OpenRouter. Ba setup dưới đây giúp bạn dùng CLI của Anthropic mà không tốn một xu token — từ GLM 5.1 qua Ollama, Gemma 4 chạy offline trên laptop, tới Elephant Alpha 100B đang free trên OpenRouter.

claude-codeollamaopenrouter

7 phút đọc

#3402025-08-14

Gemma 4 26B A4B: 10+ instances chạy song song trên MacBook Pro M4 Max

Google DeepMind open-source demo chạy 10+ Gemma 4 26B A4B song song trên một MacBook Pro M4 Max, mỗi instance giữ 18 tok/s. Đây là bằng chứng sống cho kiến trúc MoE 3.8B active/25.2B total — ~180 tok/s aggregate chỉ trên một máy laptop.

gemma-4google-deepmindmixture-of-experts

7 phút đọc

#2962025-07-23

Unsloth sweeps 22/22: Gemma 4 26B-A4B GGUFs are now SOTA

An independent benchmark ranked 80 GGUF quantizations of Google's new Gemma 4 26B-A4B across 6 uploaders. Unsloth's Dynamic 2.0 GGUFs placed #1 in every single one of the 22 tested quant sizes on mean KL divergence — the cleanest sweep we've seen in open-model quantization.

gemma-4unslothgguf

6 phút đọc

#2922025-07-21

Gemma 4 just made your GitHub Copilot subscription optional

Google's open Gemma 4 runs a full coding assistant on your laptop — offline, free, Apache 2.0. With LiveCodeBench 80% and Codeforces ELO 2150, it closes the gap to Copilot while keeping every line of code on your machine.

gemma-4github-copilotlocal-llm

7 phút đọc

#2912025-07-20

24GB VRAM là đủ: Gemma 4 31B Dense tự build một hero section trên laptop trong 5 phút

Gemma 4 31B Dense chạy local trên RTX 5090 laptop 24GB, q4_k_m, 15 tok/s, 94W — và nó tự viết xong một production hero section chỉ trong 5 phút. Đây là lúc 'AI coding không subscription' trở thành thực tế trên máy cá nhân.

gemma-4google-deepmindlocal-llm

8 phút đọc

#2252025-06-17

Gemma 4: mô hình mở 31B của Google đánh bại đối thủ 400B và chạy offline trên điện thoại

Google DeepMind ra Gemma 4 ngày 2/4/2026 dưới giấy phép Apache 2.0. Bản 31B Dense đạt 89,2% AIME 2026, 80% LiveCodeBench v6, Elo 1452 trên Arena AI và đứng #3 bảng xếp hạng open model — trong khi bản E2B chạy offline trên Raspberry Pi, điện thoại với context 256k cho các dòng MoE/Dense.

gemma-4google-deepmindopen-source-llm

7 phút đọc

#1132025-04-22

Gemma 4 chạy offline trên iPhone: 1.5GB, không cần mạng, không cần cloud

Google vừa đưa Gemma 4 E2B và E4B — mô hình mở đa phương tiện — xuống iPhone. Tải ~1.5 GB là xong, chat–nhìn ảnh–nghe giọng hoàn toàn offline. Đây là cái nhìn kỹ thuật và trải nghiệm thực tế.

gemma-4google-deepmindon-device-ai

7 phút đọc

#1122025-04-21

Gemma 4 + Falcon Perception: agent thị giác chạy local trên MacBook, không cần API

Một vòng lặp agentic hai mô hình mở — Gemma 4 đặt câu hỏi, Falcon Perception trả lời — phân tích video ngay trên MacBook qua MLX. Demo đếm 156 người và 8 xe trắng trong một clip, hoàn toàn offline.

gemma-4falcon-perceptionmlx

7 phút đọc

#562025-03-24

Gemma 4 trên MLX trong Ollama: nhanh hơn rõ rệt, con số thật là bao nhiêu?

Một tweet của @thinkverse tóm gọn trend đang nóng trong cộng đồng Apple Silicon: Gemma 4 chạy qua MLX trong Ollama nhanh hơn hẳn trước. Dưới đây là con số thật, bối cảnh Ollama 0.19 + MLX backend, và tại sao Mac 32GB+ đang trở thành máy local-LLM mạnh nhất hiện tại.

gemma-4ollamamlx

7 phút đọc

#212025-03-07

Gemma 4 26B A4B và 31B đã có mặt trên Mac qua LocallyAI: hai model open-source mạnh nhất chạy offline trên Apple Silicon

LocallyAI vừa thêm Gemma 4 26B A4B (MoE, 4B active params, ~150 token/s) và 31B Dense (top-3 open model trên Arena AI) vào app Mac. Đây là hai model lớn nhất, thông minh nhất mà bạn có thể chạy 100% offline trên Apple Silicon — Apache 2.0, 256K context, agentic-ready, không cần internet.

gemma-4google-deepmindlocally-ai

7 phút đọc