// Popular Articles
FilmArena.ai ra mắt: Benchmark cho AI sáng tạo + sandbox 40+ model trong một tab
Koyal (YC) vừa ship FilmArena.ai — một arena blind-vote cho 40+ model ảnh/video SOTA và một sandbox gom mọi model vào một giao diện, một giá. 2M+ vote từ 190 quốc gia, re-rank mỗi tuần. GPT Image 2 dẫn image-editing, Nano Banana 2 vẫn thắng animated, Veo 3.1 Fast vượt bản full ở realistic.
PulseBench-Tab: Benchmark Mới Cho Table Extraction Đa Ngôn Ngữ Vừa Được Open-Source
Pulse AI vừa mở mã nguồn PulseBench-Tab — benchmark frontier cho table extraction với 1.820 bảng được human-annotate trên 9 ngôn ngữ, kèm metric T-LAG đánh giá cả structure lẫn nội dung trong một con số duy nhất. Pulse Ultra 2 dẫn đầu leaderboard với 0.9347, bỏ xa Gemini 3.1 (0.8155) và các agentic pipeline như LlamaParse, Reducto.
Qwen3.6 35B vs 27B trên MacBook M5 Max với TurboQuant: tốc độ hay chất lượng?
Một benchmark thực chiến so sánh Qwen3.6 35B-A3B (MoE) và Qwen3.6 27B (dense thinking) chạy local trên MacBook Pro M5 Max 64GB RAM với KV-cache nén bằng Google TurboQuant. Kết quả hé lộ trade-off rõ ràng giữa throughput và chất lượng planning.
Ollama kimi-k2.6:cloud crushes OpenRouter providers on throughput — field numbers inside
A hobbyist benchmark of three runs against Ollama's kimi-k2.6:cloud clocked 77–114 tok/s with sub-1.2s TTFT, leaving every OpenRouter provider (Parasail, Moonshot, NovitaAI, Cloudflare) in the dust. Caveats, context, and what the numbers actually mean.
Exa Deep Max: Agentic Search SOTA với Latency Nhanh Hơn 20 Lần
Exa vừa công bố Deep Max — endpoint agentic search kết hợp frontier LLM với hàng chục lời gọi Exa Search song song, đạt state-of-the-art trên HLE-Search, FRAMES, Deep Search QA, với độ trễ nhanh hơn đối thủ tới 92 lần.