// Posts
AI Agent tự cải thiện bằng Rubric: Vòng phản hồi thay đổi cuộc chơi
#4932026-05-06

AI Agent tự cải thiện bằng Rubric: Vòng phản hồi thay đổi cuộc chơi

AI agent giờ có thể tự cải thiện liên tục bằng cách dùng một rubric mô tả tiêu chí hoàn thành nhiệm vụ, kết hợp grader sub-agent chuyên đánh giá từng vòng lặp. HyperAgents đạt imp@50 = 0.630 trên Olympiad math grading - trong khi hệ thống do con người thiết kế tay đạt 0.0. SICA tự chỉnh sửa code của chính mình, nâng điểm SWE-bench từ 17% lên 53%. Đây là pattern kỹ thuật đang được áp dụng trong sản xuất tại Meta, Cognition và Google DeepMind.

ai-agentself-improvementrubric
7 phút đọc
Multi-Agent Orchestration: Khi AI biết phân công lao động
#4922026-05-06

Multi-Agent Orchestration: Khi AI biết phân công lao động

Multi-agent vượt single-agent Claude Opus 4 tới 90.2% trong benchmark nghiên cứu. Mỗi sub-agent có context window riêng, cùng chia sẻ filesystem để phối hợp - đây là kiến trúc đang reshape cách AI xử lý bài toán phức tạp. Token tiêu tốn gấp 15 lần chat thường, nhưng tốc độ xử lý tăng tới 90% nhờ song song hóa.

multi-agentai-architectureclaude
7 phút đọc
2 Kiểu Kỹ Sư Tạo Ra AI Agent Thực Sự Hoạt Động
#4912026-05-06

2 Kiểu Kỹ Sư Tạo Ra AI Agent Thực Sự Hoạt Động

CTO của Listen Labs - startup AI vừa vào Forbes AI 50 với $100M funding - chỉ ra 2 profile kỹ sư tạo nên agent tốt: người "cảm" được LLM và người product engineer iterate nhanh từ thực tế. 57.3% tổ chức đã có agent trên production năm 2026. Vấn đề không còn là xây hay không, mà là xây nhanh thế nào.

ai-agentsagent-engineeringllm
6 phút đọc
AI tự nghiên cứu AI Safety: Anthropic dùng Claude để giải bài toán kiểm soát siêu AI
#4902026-05-06

AI tự nghiên cứu AI Safety: Anthropic dùng Claude để giải bài toán kiểm soát siêu AI

Anthropic Fellows công bố kết quả đột phá: 9 AI agent (Claude Opus 4.6) đạt PGR 0.97 trong 5 ngày, vượt xa mức 0.23 của con người sau 7 ngày. Toàn bộ chi phí chỉ ~$18,000, tương đương $22/giờ nghiên cứu AI. Phương pháp hay nhất tổng quát hóa sang toán học (PGR 0.94) nhưng chưa cải thiện có ý nghĩa thống kê khi thử nghiệm trên Claude Sonnet 4 ở quy mô production.

anthropicai-safetyalignment
7 phút đọc
Ryan Keisler open-source model GNN dự báo thời tiết toàn cầu - 10 ngày trong dưới 1 phút
#4892026-05-06

Ryan Keisler open-source model GNN dự báo thời tiết toàn cầu - 10 ngày trong dưới 1 phút

Ryan Keisler vừa public code model GNN từ bài báo 2022, cho phép dự báo thời tiết 10 ngày toàn cầu trong dưới 1 phút. Model khởi tạo từ ERA5 hoặc IFS analysis, tương đương GFS và ECMWF tại độ phân giải 1 độ. MIT license, kèm scripts eval, sensitivity analysis, và demo Hurricane Sandy.

gnnweather-forecastingopen-source
5 phút đọc
OpenAI ra mắt MRC - Giao thức mạng mới cho siêu máy tính AI
#4882026-05-06

OpenAI ra mắt MRC - Giao thức mạng mới cho siêu máy tính AI

MRC (Multipath Reliable Connection) là giao thức mạng mới của OpenAI, giải quyết tắc nghẽn trong các cụm GPU cực lớn. Phun gói tin qua 128-256 đường dẫn đồng thời, đạt 96% băng thông lý thuyết (770 Gb/s) và phục hồi sự cố trong vài chục micro-giây. Đang chạy production tại Microsoft Fairwater và Oracle Abilene với 42.000+ GPU, đã train ChatGPT và Codex. Mở hoàn toàn qua Open Compute Project - không độc quyền.

openainetworkingmrc
7 phút đọc
Dạy AI 'tại sao' trước khi dạy 'làm gì': Anthropic công bố Model Spec Midtraining
#4872026-05-06

Dạy AI 'tại sao' trước khi dạy 'làm gì': Anthropic công bố Model Spec Midtraining

MSM giảm agentic misalignment từ 54% xuống 7% trên Qwen3-32B, vượt xa deliberative alignment baseline 14%. Kỹ thuật này cần ít dữ liệu hơn 40-60 lần so với fine-tuning thông thường. Mã nguồn và model đã mở trên GitHub và HuggingFace.

anthropicai-alignmentmodel-spec
6 phút đọc
Bốn kiến trúc multi-agent: khi nào dùng gì và sự thật về production
#4862026-05-06

Bốn kiến trúc multi-agent: khi nào dùng gì và sự thật về production

Benchmark mới nhất test 10.000 tài liệu SEC qua 5 LLM lớn cho thấy Reflexive đạt F1 cao nhất nhưng tốn gấp 2.3 lần chi phí. Hierarchical Supervisor là lựa chọn tốt nhất cho hầu hết workload production với 98.5% độ chính xác tại 60.7% chi phí. Parallel nhanh hơn Sequential tới 1.84 lần nhưng là pattern kém hiệu quả token nhất. Gartner dự báo hơn 40% pilot AI agent sẽ bị huỷ vào 2027 - kiến trúc mới là nguyên nhân.

multi-agentllm-orchestrationai-architecture
7 phút đọc
OpenAI Workspace Agents: ChatGPT Business/Enterprise/Edu giờ có agent chạy 24/7 bằng Codex
#4852026-05-06

OpenAI Workspace Agents: ChatGPT Business/Enterprise/Edu giờ có agent chạy 24/7 bằng Codex

OpenAI vừa ra mắt Workspace Agents — thế hệ kế thừa của custom GPTs: agent chạy cloud 24/7, dùng Skills, Connectors và scheduled actions, cắm thẳng vào ChatGPT và Slack. Có mặt trên Business, Enterprise, Edu và Teachers từ 22/04/2026, miễn phí đến 06/05 trước khi chuyển sang pricing theo credit.

openaichatgpt-businessworkspace-agents
7 phút đọc
10 Khái Niệm Cơ Bản Trước Khi Làm AI Agent - P2: ReAct, Multi-Agent và An Toàn
#4842026-05-05

10 Khái Niệm Cơ Bản Trước Khi Làm AI Agent - P2: ReAct, Multi-Agent và An Toàn

5 khái niệm nâng cao quyết định Agent của bạn có đáng tin cậy hay không: ReAct pattern, Multi-Agent collaboration, Error handling, Safety control và cách chọn framework đúng. Nhóm Multi-Agent thực tế chỉ 3-4 agent do coordination overhead tăng nhanh.

ai-agentreact-patternmulti-agent
7 phút đọc