Tag: #ai-engineering

23 bài viết

#7562026-06-03

Hermes Agent Kanban: Khi Một Agent Không Đủ Sức Gánh Cả Dự Án

Hermes Agent Kanban là hệ thống quản lý task durable, SQLite-backed, cho phép nhiều AI agent chuyên biệt cộng tác trên workflow phức tạp mà không bị giới hạn bởi context window. Dispatcher tự động tick mỗi 60 giây, phát hiện crash bằng POSIX kill probe, và phục hồi task trong cùng một chu kỳ. Kiến trúc peer-to-peer thay thế mô hình subagent swarm dễ vỡ bằng receipts có thể kiểm chứng, dependency DAG tự động, và structured handoff giữa các agent.

hermes-agentmulti-agentkanban

12 phút đọc

#7352026-05-30

Harness: Tạo Agent Team cho Claude Code Chỉ Bằng Một Câu Lệnh

Harness là Claude Code plugin tạo agent team hoàn chỉnh từ một câu prompt, áp dụng 6 pattern kiến trúc đã được kiểm chứng. A/B test trên 15 task kỹ thuật cho thấy chất lượng output tăng +60% (49.5 lên 79.3), 15/15 win-rate, variance giảm -32%. Repo harness-100 đi kèm cung cấp sẵn 100 agent team production-ready cho 10 domain.

claude-codeagent-teamsmulti-agent

7 phút đọc

#6642026-05-18

Xây Eval Dataset Hiệu Quả cho LLM: Bắt Đầu Từ Đâu và Dùng Công Cụ Gì (Phần 2)

Dataset tốt là dataset mirror được production - nếu pass dataset bạn tự tin deploy, nó đang làm đúng việc. Bắt đầu với 10-20 ví dụ curate thủ công; với từng component riêng lẻ thì 5-10 là đủ. 3 nguồn dữ liệu theo thứ tự: production traces, hand-written cases, sau đó mới generate synthetic bằng AI. Sau dataset là experiments - đo impact từng thay đổi trước khi deploy.

llm-evaluationeval-datasetlangfuse

6 phút đọc

#6622026-05-18

AI Engineering Loop và Cấu Trúc Eval Dataset cho Ứng Dụng LLM (Phần 1)

AI Engineering Loop là vòng lặp liên tục kết nối production monitoring với development có hệ thống - dataset là mắt xích trung tâm. Mỗi dataset item gồm 3 trường: Input bắt buộc, Expected output tùy chọn, và Metadata tùy chọn. Reference-based evaluators yêu cầu ground truth và chỉ dùng được ở offline; reference-free evaluators chạy được cả online lẫn offline. Hiểu đúng cấu trúc này là nền tảng để xây hệ thống eval không đoán mò.

llm-evaluationai-engineeringlangfuse

6 phút đọc

#6602026-05-18

Thiết kế Eval Dataset cho LLM - Nền tảng của vòng lặp AI Engineering

Eval dataset là tập test case giúp kiểm tra hệ thống LLM có hệ thống trước khi deploy, thay thế chiến lược deploy-and-hope-for-the-best. Mỗi dataset item gồm 3 trường: Input (bắt buộc), Expected output và Metadata (tùy chọn). Langfuse giảm CLI error rate từ 25% xuống 0% chỉ bằng cách thêm một instruction rõ ràng - phát hiện nhờ dataset và experiments. 57% tổ chức đã có AI agents trong production (LangChain 2026), và quality là rào cản số 1 với 32% đội nhóm.

llm-evaluationai-engineeringeval-dataset

6 phút đọc

#6182026-05-14

Xây dựng LLM Architecture từ đầu - Phần 2: Tokenization, Embeddings, Attention và RAG

4 khái niệm kỹ thuật cốt lõi phân biệt người dùng AI và người xây dựng AI: Tokenization, Embeddings, Attention Mechanism và Fine-tuning. Chuyên gia fine-tuning (LoRA, RLHF) đang kiếm $350-$700/giờ freelance 2026. Cộng thêm RAG - kỹ năng sinh tiền nhất để build private AI assistants - và cách deploy lên production thực tế.

llmragattention-mechanism

7 phút đọc

#5942026-05-12

Xây dựng LLM Architecture từ đầu - Phần 1: Python, Neural Networks và Transformer

LLM engineer senior hiện kiếm $200K-$320K/năm và freelance $175-250/giờ - premium 30-60% so với ML engineer thông thường. Bài Phần 1 hướng dẫn 3 nền tảng không thể bỏ qua: Python chuyên sâu, Neural Networks và kiến trúc Transformer ra đời từ bài báo lịch sử 'Attention Is All You Need'. Không cần PhD, không cần Silicon Valley.

llmpythondeep-learning

6 phút đọc

#5722026-05-10

Harness Engineering (Phần 6): Khi Scaffolding Quan Trọng Hơn Model

Claude Opus 4.6 xếp hạng #33 trên Terminal Bench 2.0 trong native harness, nhưng vọt lên #5 chỉ bằng cách thay đổi cấu hình - không đụng vào model. ~98.4% codebase của Claude Code là infrastructure, chỉ 1.6% là AI decision logic. Harness engineering - discipline thiết kế scaffolding xung quanh model - đang trở thành kỹ năng cốt lõi của agentic era.

harness-engineeringcoding-agentsai-engineering

7 phút đọc

#5542026-05-08

Blockify và IdeaBlocks: Giảm corpus RAG 40x, tăng độ chính xác y tế 261%

Blockify giảm kích thước corpus xuống còn 2.5% kích thước gốc trong khi giữ lại 99% factual integrity. Token tiêu thụ mỗi query giảm 3.09x - từ 1,515 xuống 490 tokens. Độ chính xác vector search tăng 2.29x so với chunking truyền thống. Trong thử nghiệm lâm sàng với Llama 3.2 3B chạy on-device, Blockify cải thiện độ chính xác trung bình 261% và lên đến 650% với trường hợp DKA management.

ragblockifyideablock

6 phút đọc

#5422026-05-07

Prefill và Decode: Hai pha đối lập giải thích mọi thứ về tốc độ LLM

Prefill xử lý toàn bộ prompt song song - bottleneck là compute, metric là TTFT. Decode sinh từng token một - bottleneck là memory bandwidth, metric là ITL. Llama-2-13B tốn 800KB KV cache mỗi token, 4K context với batch 8 ngốn 25GB VRAM. DeepSeek MLA nén cache xuống 93.3% và tăng throughput 5.76x bằng cách redesign attention từ đầu.

llm-inferencekv-cacheprefill-decode

6 phút đọc

#5392026-05-07

RAG tiến hóa như thế nào: Từ Retrieval đơn giản đến Agentic AI

RAG đã trải qua 6 giai đoạn tiến hóa - từ keyword search thủ công đến Agentic AI tự lên kế hoạch và tự sửa lỗi. Agentic RAG tốn 3-10x token và thêm 2-5x latency, nhưng đáng giá với các tác vụ multi-hop phức tạp, y tế, pháp lý. MCP trở thành chuẩn Linux Foundation tháng 12/2025 - báo hiệu RAG sắp biến thành tầng hạ tầng cốt lõi của mọi ứng dụng AI.

ragagentic-aillm

8 phút đọc

#4992026-05-06

PageIndex: Xuất sắc trong niche của nó - nhưng Twitter đang hype quá mức

PageIndex đạt 98.7% accuracy trên FinanceBench - một benchmark tài chính cực khó - nhờ cách tiếp cận vectorless hoàn toàn mới. Tuy nhiên, bản OSS chỉ thực sự mạnh với 1 tài liệu dài; multi-document cross-folder search đòi hỏi tier Enterprise mới ra mắt. Hype trên Twitter không sai, chỉ thiếu context quan trọng.

pageindexragvector-database

6 phút đọc

#4642026-05-05

5 Layer ẩn trong Claude Code mà hầu hết engineer chưa từng mở

Claude Code không phải một chatbot - đây là một hệ thống 5 layer kiến trúc gọi là Agent Development Kit (ADK). CLAUDE.md là bộ nhớ không bao giờ phải nhắc lại, Hooks là lớp bảo vệ deterministic mà hầu hết team bỏ qua. Subagents tiêu tốn 7x token khi chạy song song, còn CLAUDE.md dài hơn 200 dòng sẽ bị model tự động bỏ qua.

claude-codeai-engineeringagentic-systems

7 phút đọc

#4272026-05-01

Matt Pocock Open-Source Bộ Skills AI Giúp Bạn Code Như Senior Engineer

Matt Pocock open-source toàn bộ .claude directory cá nhân, đạt 55.1k GitHub stars chỉ sau vài ngày push - không cần blog post, không cần Hacker News. 22 SKILL.md files dạy AI lập trình theo chuẩn engineering thực chiến: /tdd, /grill-me, /diagnose - không vibe coding. /caveman giảm 75% token usage; cài trong 30 giây với npx skills@latest. MIT license, miễn phí hoàn toàn.

matt-pocockclaude-codeai-engineering

6 phút đọc

#4172026-04-29

1 Research Agent, 5 Agent Thông Minh Hơn: Kiến Trúc Vault Bằng Chứng Cho Hệ Thống AI

Trong 3 tháng, một research agent duy nhất ghi lại hơn 8.000 mảnh bằng chứng có cấu trúc trên 16 chủ đề, giúp toàn bộ 5 agent còn lại trong hệ thống bắt đầu mỗi ngày với nền tảng kiến thức tốt hơn. Điểm mấu chốt là scraping thô không phải research thật - nếu dữ liệu không có cấu trúc, các agent khác không dùng được. Research vault phân tách rõ ràng: raw input, finding, claim, verified knowledge và task là 4 thứ hoàn toàn khác nhau.

ai-agentresearch-agentagent-architecture

7 phút đọc

#3992026-04-26

Claude Sub-agents vs. Agent Teams - Hai paradigm, một quyết định kiến trúc

Sub-agents chạy cô lập, fire-and-forget, phù hợp pipeline 2-4 bước tuần tự. Agent Teams dùng shared task list peer-to-peer, rẻ hơn 3-5 lần ở quy mô 10+ agents song song. Chọn sai kiến trúc là sai ngay từ đầu - không phải optimize sau.

claude-agent-sdkmulti-agentsub-agents

7 phút đọc

#2572026-04-11

Harness Engineering (Phần 5): Harness Là Lợi Thế Cạnh Tranh Mới

deepagents-cli của LangChain nhảy từ ngoài Top 30 lên Top 5 trên Terminal-Bench 2.0 với mức tăng 13.7 điểm — mà model bên dưới không đổi. Meta-Harness của Stanford đạt 76.4% trên cùng benchmark khi dùng Claude Opus 4.6. Team Frontier của OpenAI đã ship hơn 1 triệu dòng code production với zero dòng code do người viết, chỉ với 3-7 kỹ sư. Harness mới là moat, không phải model.

agent-harnessagentic-engineeringllm-infrastructure

7 phút đọc

#2342026-04-05

Harness Engineering (Phần 4): Giải Phẫu Cơ Sở Hạ Tầng Biến LLM Thành Agent Thực Sự

LangChain tăng 13.7 điểm trên TerminalBench 2.0 mà không đổi model - chỉ thay harness. Agent harness là toàn bộ cơ sở hạ tầng bao quanh LLM: orchestration loop, tools, memory, context management, guardrails. 12 thành phần phân biệt chatbot demo với agent production-grade.

agent-harnessllm-orchestrationclaude-code

7 phút đọc

#2212026-04-02

Agent Memory Engineering: Tại sao memory không thể copy giữa Claude Code, Codex và Hermes

Memory là điểm hợp nhất giữa model và harness - không phải chỉ là dữ liệu. Claude Code, Codex (OpenAI) và Hermes (Nous Research) dùng ba kiến trúc hoàn toàn khác nhau, khiến memory không thể chuyển giữa các agent chỉ bằng cách copy file. Vector database đã thua - người thắng là “ LLM + markdown + filesystem tools “

agent-memoryclaude-codecodex

7 phút đọc

#1642026-03-03

AI Engineering from Scratch - Curriculum mã nguồn mở để hiểu AI thật sự, không phải chỉ gọi API

503 bài học, 20 phases, khoảng 320 giờ - curriculum AI hoàn toàn miễn phí do Rohit Ghumare xây dựng trong 18 tháng. Triết lý cốt lõi: tự viết thuật toán từ toán thô trước khi dùng PyTorch hay tiktoken. Mỗi bài kết thúc bằng một artifact dùng được ngay - repo ship 388 skills và 99 prompt templates. Phase 19 Capstone có 17 sản phẩm end-to-end từ coding agent đến multi-agent software engineering team.

ai-engineeringmachine-learningopen-source

6 phút đọc

#1462026-02-20

10 Kiến trúc RAG cho Enterprise AI 2026: Từ Naive RAG đến Agentic Graph RAG

Hybrid RAG kết hợp vector + BM25 là baseline production mặc định cho enterprise 2026. GraphRAG outperform Hybrid khi queries phụ thuộc relationship giữa entities. Agentic RAG xử lý multi-hop nhưng tốn 3-10x token và latency p50 = 4-8 giây. Lựa chọn kiến trúc RAG sai là lý do chính khiến dự án GenAI enterprise thất bại sau giai đoạn demo.

ragai-engineeringllm

8 phút đọc

#1352026-02-02

10 Kiến trúc RAG cho Enterprise AI 2026: Từ Naive RAG đến Agentic Graph RAG

ragai-engineeringllm

8 phút đọc

#0612025-05-05

Sentry skill-writer: Meta-Skill mã nguồn mở biến việc viết Agent Skill thành quy trình kỹ thuật

Sentry vừa mở mã một meta-skill tên là skill-writer — không làm việc trực tiếp cho user, mà định nghĩa một quy trình 7 bước, 5 loại skill và hệ thống depth gate để biến việc viết Agent Skill thành một thao tác kỹ thuật có thể tái lập và kiểm toán được.

agent-skillssentryai-engineering

7 phút đọc