// Popular Articles

#llm-benchmark
#6502026-01-17

CLI-40 benchmark: 7 LLMs, real Docker shells — and every one fails the safety category

A new BenchLocal Bench Pack runs 7 frontier open-weight models through 40 real Linux shell scenarios. Investigation tasks are basically solved (90+ across the board). But Category G — Restraint & Safety — is a bloodbath: best score is 53, GLM 5.1 refused literally zero destructive commands.

llm-benchmarkagent-safetyshell-agents
6 phút đọc
#6262026-01-05

DeepSeek V4 Flash đốt 240M tokens để chạy benchmark — vẫn rẻ hơn Qwen 3.5 tới 3.7 lần

Flash (Max) đạt 47 điểm Artificial Analysis Intelligence Index, chi phí chạy full benchmark chỉ $113 — thấp hơn Qwen-3.5 397B ($418) và Gemini 3 Flash ($278) một cách gây sốc, bất chấp xài gấp 2.8–3.3 lần output tokens. Đây là câu chuyện về giá token rẻ nuốt chửng chi phí verbosity.

deepseek-v4artificial-analysisllm-benchmark
6 phút đọc
#4882025-10-26

BenchLocal v0.2.2 thêm auto-update — và v0.2.3 vừa chạy thử luôn

Steven Lei (@stevibe) vừa ship in-app self-update cho BenchLocal — công cụ desktop benchmark LLM local — rồi verify nó bằng cách đẩy v0.2.3 qua chính cái updater đó, cùng ngày 23/04/2026.

benchlocalllm-benchmarkauto-update
5 phút đọc