// Popular Articles

#benchmark
#4772025-10-21

FilmArena.ai ra mắt: Benchmark cho AI sáng tạo + sandbox 40+ model trong một tab

Koyal (YC) vừa ship FilmArena.ai — một arena blind-vote cho 40+ model ảnh/video SOTA và một sandbox gom mọi model vào một giao diện, một giá. 2M+ vote từ 190 quốc gia, re-rank mỗi tuần. GPT Image 2 dẫn image-editing, Nano Banana 2 vẫn thắng animated, Veo 3.1 Fast vượt bản full ở realistic.

filmarenacreative-aiai-video
7 phút đọc
PulseBench-Tab: Benchmark Mới Cho Table Extraction Đa Ngôn Ngữ Vừa Được Open-Source
#4582025-10-12

PulseBench-Tab: Benchmark Mới Cho Table Extraction Đa Ngôn Ngữ Vừa Được Open-Source

Pulse AI vừa mở mã nguồn PulseBench-Tab — benchmark frontier cho table extraction với 1.820 bảng được human-annotate trên 9 ngôn ngữ, kèm metric T-LAG đánh giá cả structure lẫn nội dung trong một con số duy nhất. Pulse Ultra 2 dẫn đầu leaderboard với 0.9347, bỏ xa Gemini 3.1 (0.8155) và các agentic pipeline như LlamaParse, Reducto.

pulsebench-tabtable-extractiondocument-ai
7 phút đọc
#4482025-10-07

Qwen3.6 35B vs 27B trên MacBook M5 Max với TurboQuant: tốc độ hay chất lượng?

Một benchmark thực chiến so sánh Qwen3.6 35B-A3B (MoE) và Qwen3.6 27B (dense thinking) chạy local trên MacBook Pro M5 Max 64GB RAM với KV-cache nén bằng Google TurboQuant. Kết quả hé lộ trade-off rõ ràng giữa throughput và chất lượng planning.

qwen3-6turboquantlocal-llm
6 phút đọc
#2852025-07-17

Ollama kimi-k2.6:cloud crushes OpenRouter providers on throughput — field numbers inside

A hobbyist benchmark of three runs against Ollama's kimi-k2.6:cloud clocked 77–114 tok/s with sub-1.2s TTFT, leaving every OpenRouter provider (Parasail, Moonshot, NovitaAI, Cloudflare) in the dust. Caveats, context, and what the numbers actually mean.

kimi-k2-6ollamaopenrouter
5 phút đọc
#2452025-06-27

Exa Deep Max: Agentic Search SOTA với Latency Nhanh Hơn 20 Lần

Exa vừa công bố Deep Max — endpoint agentic search kết hợp frontier LLM với hàng chục lời gọi Exa Search song song, đạt state-of-the-art trên HLE-Search, FRAMES, Deep Search QA, với độ trễ nhanh hơn đối thủ tới 92 lần.

exa-aiagentic-searchllm-tools
6 phút đọc