TL;DR

OpenClaw 2026.4.22 (ra ngày 23/4/2026) biến xAI thành first-class media provider: grok-imagine-image/-pro, 6 giọng TTS live, grok-stt batch, và realtime transcription qua WebSocket decode trực tiếp G.711 µ-law của Twilio. Realtime STT cũng mở rộng sang Deepgram, ElevenLabs, Mistral. Thêm /models add không cần restart gateway, GPT-5 prompt overlay dùng chung, Azure OpenAI image gen native routing, Claude Opus 4.7 trên Amazon Bedrock Mantle với 1M context, và Tencent Cloud provider. Bundled plugin load nhanh hơn 82–90%, doctor --non-interactive giảm ~74%.

What's new

Đây là release mà OpenClaw dừng định vị “một gateway OpenAI với vài phụ kiện” và chính thức trở thành gateway đa-provider thật. Các thay đổi đầu bảng:

  • xAI full media suite: image generation (grok-imagine-image, grok-imagine-image-pro), reference-image edit tới 5 ảnh, 6 giọng TTS, STT batch (grok-stt) và realtime qua WebSocket (PR #68694).
  • Realtime STT mở rộng: Voice Call streaming transcription cho Deepgram, ElevenLabs, Mistral. ElevenLabs còn thêm Scribe v2 batch cho inbound media.
  • /models add <provider> <modelId>: đăng ký model ngay trong chat, không phải restart gateway (PR #70211).
  • GPT-5 prompt overlay shared: OpenAI, OpenRouter, OpenCode, Codex... đều nhận chung behavioral + heartbeat guidance; thêm toggle agents.defaults.promptOverlays.gpt5.personality.
  • Azure OpenAI image gen native: auto-detect *.openai.azure.com, switch api-key header + deployment-scoped URL + api-version param (default 2024-12-01-preview).
  • Claude Opus 4.7 qua Amazon Bedrock Mantle với provider-owned bearer-auth streaming. Opus 4.7 + claude-cli Opus 4.7 chuẩn hoá về 1M context (hết fallback 200k).
  • Tencent Cloud provider plugin mới với TokenHub onboarding và model hy3-preview.
  • TUI local embedded mode: chạy terminal chat không cần Gateway, vẫn enforce plugin approval.
  • Codex CLI auth import path bị gỡ: phải dùng browser login hoặc device pairing; OpenClaw không còn copy ~/.codex OAuth material vào agent auth stores.

Why it matters

Trước 4.22, xAI trong OpenClaw chỉ là chat provider. Giờ nó đủ image + video + TTS + STT + realtime — đồng nghĩa bạn có thể xây voice-call agent end-to-end trên một provider duy nhất, hoặc mix-and-match (input Deepgram STT, output ElevenLabs TTS, image qua xAI) mà không đổi code. Thêm việc GPT-5 prompt overlay chuyển vào shared runtime, tính cách “friendly” + follow-through của GPT-5 giờ nhất quán qua mọi GPT provider chứ không còn dính cứng với plugin OpenAI.

Về phía operator, bundled plugin load nhanh 82–90% và doctor giảm 74% là con số tangible — cold-start gateway rõ ràng hơn. /models add loại bỏ restart cycle cho mỗi experiment nhỏ, đúng với nhịp ship daily của OpenClaw.

Technical facts

Hạng mụcChi tiết
xAI image modelsgrok-imagine-image, grok-imagine-image-pro — up to 4 outputs, 5 reference images, 1K/2K, 7 aspect ratios
xAI TTS voicesara, eve (default), leo, rex, sal, una
xAI TTS formatsmp3, wav, pcm, mulaw, alaw (G.711) — KHÔNG Opus native
xAI realtime STTwss://api.x.ai/v1/stt, default mulaw @ 8000 Hz, 800ms endpointing, interim transcripts ON
Azure API versiondefault 2024-12-01-preview, override AZURE_OPENAI_API_VERSION
Perf: doctor~74% faster (--non-interactive, PR #69840)
Perf: plugin load82–90% faster (native Jiti, PR #69925)
Opus 4.7 contextnormalize 1M (hết fallback 200k)

Comparison

Bối cảnh: 2026.4.21 tập trung OpenAI visual — default provider lên gpt-image-2, advertise 2K/4K size hints, thêm Skill Workshop plugin. 4.22 rẽ hướng bung provider ecosystem:

Khu vực2026.4.212026.4.22
ImageOpenAI gpt-image-2 default, 2K/4K hintsxAI grok-imagine-image(-pro), Azure native routing cho gpt-image-2
Voice (STT)OpenAI + xAI realtime+ Deepgram, ElevenLabs, Mistral realtime; ElevenLabs Scribe v2 batch
TTSOpenAI, ElevenLabs, Google, MiniMax, Microsoft+ xAI (6 giọng, telephony-native formats)
EnterpriseSkill Workshop, owner-command verification+ Bedrock Mantle Claude Opus 4.7, Tencent Cloud hy3-preview
Ops/models add live, bundled plugin load -82–90%, diagnostics export

Use cases

  • Twilio voice bot: xAI STT nhận G.711 µ-law trực tiếp (không transcode), xAI TTS trả mulaw/alaw pipe thẳng ngược vào call — latency thấp nhất khả dụng.
  • Marketing visual pipeline: grok-imagine-image-pro với 5 reference image + 2K, masked edit cho catalog e-commerce giữ nguyên product label.
  • Azure-restricted team: lần đầu chạy gpt-image-2 native trên deployment nội bộ (eastus2, swedencentral, polandcentral, westus3, uaenorth) — API-key auth, deployment-scoped URL đúng chuẩn Azure.
  • Multi-provider gateway: /models add openrouter x/foo-70b test ngay trong chat, không gián đoạn sessions khác.
  • WhatsApp community bot: 1 agent vẫn là strict tech-support trong group A, vừa casual mod trong group B — nhờ per-group systemPrompt.

Limitations & pricing

  • xAI auth: chỉ API key (XAI_API_KEY), không OAuth/device-code.
  • xAI Realtime voice bidirectional CHƯA có — cần contract khác batch/streaming STT.
  • xAI image native knobs (quality, mask, user, aspect ratios 1:2/2:1/9:20/20:9) bị ẩn đến khi shared image_generate contract mở rộng.
  • xAI video: grok-imagine-video KHÔNG nhận local buffer, bắt buộc HTTP(S) URL. Duration 1–15s (gen), 2–10s (extend). 480P/720P.
  • Opus voice-note: xAI / MiniMax / Google Gemini không hỗ trợ native. Dùng OpenAI hoặc ElevenLabs cho Telegram/WhatsApp/Matrix/Feishu voice messages.
  • Azure image: field model phải là Azure deployment name, không phải public model id. Một số param (vd background trên gpt-image-2) có thể bị Azure reject dù public OpenAI accept.
  • Auto-TTS mặc định OFF; bật qua messages.tts.auto hoặc /tts on.
  • Codex CLI auth import bị gỡ — phải re-auth bằng browser login hoặc device pairing.
  • Pricing: OpenAI API key = usage-based; Codex route = ChatGPT/Codex subscription. Tencent Hy3 có tiered pricing qua TokenHub. OpenRouter + LiteLLM catalog giờ fetch async khi startup (timeout 30s).

What's next

OpenClaw ship daily (4.22 hôm nay, 4.21 hôm qua, 4.20 cùng ngày 4.21). Các hint về roadmap từ docs của chính 4.22:

  • Cross-provider image controls (quality / mask / user) — sẽ expose khi shared image_generate contract được mở rộng.
  • xAI bidirectional realtime voice — cần contract session mới.
  • Codex native compaction readable summary & kept-entry audit — docs cố ý chưa promise (narrow trong 4.22).
  • Multi-agent experimental API (grok-4.20-multi-agent-experimental-beta-0304) — cần integration riêng.

Nguồn: GitHub release 2026.4.22, OpenClaw xAI docs, TTS docs, OpenAI + Azure docs, Models CLI docs, PatchBot.