- Release 23/4/2026: xAI lên first-class với image + TTS + STT, realtime transcription thêm 3 provider mới, /models add không restart gateway, Azure OpenAI image gen native, Claude Opus 4.7 trên Bedrock Mantle với 1M context.
- Plugin load nhanh hơn 82-90%.
TL;DR
OpenClaw 2026.4.22 (ra ngày 23/4/2026) biến xAI thành first-class media provider: grok-imagine-image/-pro, 6 giọng TTS live, grok-stt batch, và realtime transcription qua WebSocket decode trực tiếp G.711 µ-law của Twilio. Realtime STT cũng mở rộng sang Deepgram, ElevenLabs, Mistral. Thêm /models add không cần restart gateway, GPT-5 prompt overlay dùng chung, Azure OpenAI image gen native routing, Claude Opus 4.7 trên Amazon Bedrock Mantle với 1M context, và Tencent Cloud provider. Bundled plugin load nhanh hơn 82–90%, doctor --non-interactive giảm ~74%.
What's new
Đây là release mà OpenClaw dừng định vị “một gateway OpenAI với vài phụ kiện” và chính thức trở thành gateway đa-provider thật. Các thay đổi đầu bảng:
- xAI full media suite: image generation (
grok-imagine-image,grok-imagine-image-pro), reference-image edit tới 5 ảnh, 6 giọng TTS, STT batch (grok-stt) và realtime qua WebSocket (PR #68694). - Realtime STT mở rộng: Voice Call streaming transcription cho Deepgram, ElevenLabs, Mistral. ElevenLabs còn thêm Scribe v2 batch cho inbound media.
/models add <provider> <modelId>: đăng ký model ngay trong chat, không phải restart gateway (PR #70211).- GPT-5 prompt overlay shared: OpenAI, OpenRouter, OpenCode, Codex... đều nhận chung behavioral + heartbeat guidance; thêm toggle
agents.defaults.promptOverlays.gpt5.personality. - Azure OpenAI image gen native: auto-detect
*.openai.azure.com, switchapi-keyheader + deployment-scoped URL +api-versionparam (default2024-12-01-preview). - Claude Opus 4.7 qua Amazon Bedrock Mantle với provider-owned bearer-auth streaming. Opus 4.7 +
claude-cliOpus 4.7 chuẩn hoá về 1M context (hết fallback 200k). - Tencent Cloud provider plugin mới với TokenHub onboarding và model
hy3-preview. - TUI local embedded mode: chạy terminal chat không cần Gateway, vẫn enforce plugin approval.
- Codex CLI auth import path bị gỡ: phải dùng browser login hoặc device pairing; OpenClaw không còn copy
~/.codexOAuth material vào agent auth stores.
Why it matters
Trước 4.22, xAI trong OpenClaw chỉ là chat provider. Giờ nó đủ image + video + TTS + STT + realtime — đồng nghĩa bạn có thể xây voice-call agent end-to-end trên một provider duy nhất, hoặc mix-and-match (input Deepgram STT, output ElevenLabs TTS, image qua xAI) mà không đổi code. Thêm việc GPT-5 prompt overlay chuyển vào shared runtime, tính cách “friendly” + follow-through của GPT-5 giờ nhất quán qua mọi GPT provider chứ không còn dính cứng với plugin OpenAI.
Về phía operator, bundled plugin load nhanh 82–90% và doctor giảm 74% là con số tangible — cold-start gateway rõ ràng hơn. /models add loại bỏ restart cycle cho mỗi experiment nhỏ, đúng với nhịp ship daily của OpenClaw.
Technical facts
| Hạng mục | Chi tiết |
|---|---|
| xAI image models | grok-imagine-image, grok-imagine-image-pro — up to 4 outputs, 5 reference images, 1K/2K, 7 aspect ratios |
| xAI TTS voices | ara, eve (default), leo, rex, sal, una |
| xAI TTS formats | mp3, wav, pcm, mulaw, alaw (G.711) — KHÔNG Opus native |
| xAI realtime STT | wss://api.x.ai/v1/stt, default mulaw @ 8000 Hz, 800ms endpointing, interim transcripts ON |
| Azure API version | default 2024-12-01-preview, override AZURE_OPENAI_API_VERSION |
| Perf: doctor | ~74% faster (--non-interactive, PR #69840) |
| Perf: plugin load | 82–90% faster (native Jiti, PR #69925) |
| Opus 4.7 context | normalize 1M (hết fallback 200k) |
Comparison
Bối cảnh: 2026.4.21 tập trung OpenAI visual — default provider lên gpt-image-2, advertise 2K/4K size hints, thêm Skill Workshop plugin. 4.22 rẽ hướng bung provider ecosystem:
| Khu vực | 2026.4.21 | 2026.4.22 |
|---|---|---|
| Image | OpenAI gpt-image-2 default, 2K/4K hints | xAI grok-imagine-image(-pro), Azure native routing cho gpt-image-2 |
| Voice (STT) | OpenAI + xAI realtime | + Deepgram, ElevenLabs, Mistral realtime; ElevenLabs Scribe v2 batch |
| TTS | OpenAI, ElevenLabs, Google, MiniMax, Microsoft | + xAI (6 giọng, telephony-native formats) |
| Enterprise | Skill Workshop, owner-command verification | + Bedrock Mantle Claude Opus 4.7, Tencent Cloud hy3-preview |
| Ops | — | /models add live, bundled plugin load -82–90%, diagnostics export |
Use cases
- Twilio voice bot: xAI STT nhận G.711 µ-law trực tiếp (không transcode), xAI TTS trả
mulaw/alawpipe thẳng ngược vào call — latency thấp nhất khả dụng. - Marketing visual pipeline:
grok-imagine-image-provới 5 reference image + 2K, masked edit cho catalog e-commerce giữ nguyên product label. - Azure-restricted team: lần đầu chạy
gpt-image-2native trên deployment nội bộ (eastus2,swedencentral,polandcentral,westus3,uaenorth) — API-key auth, deployment-scoped URL đúng chuẩn Azure. - Multi-provider gateway:
/models add openrouter x/foo-70btest ngay trong chat, không gián đoạn sessions khác. - WhatsApp community bot: 1 agent vẫn là strict tech-support trong group A, vừa casual mod trong group B — nhờ per-group
systemPrompt.
Limitations & pricing
- xAI auth: chỉ API key (
XAI_API_KEY), không OAuth/device-code. - xAI Realtime voice bidirectional CHƯA có — cần contract khác batch/streaming STT.
- xAI image native knobs (
quality,mask,user, aspect ratios 1:2/2:1/9:20/20:9) bị ẩn đến khi sharedimage_generatecontract mở rộng. - xAI video:
grok-imagine-videoKHÔNG nhận local buffer, bắt buộc HTTP(S) URL. Duration 1–15s (gen), 2–10s (extend). 480P/720P. - Opus voice-note: xAI / MiniMax / Google Gemini không hỗ trợ native. Dùng OpenAI hoặc ElevenLabs cho Telegram/WhatsApp/Matrix/Feishu voice messages.
- Azure image: field
modelphải là Azure deployment name, không phải public model id. Một số param (vdbackgroundtrêngpt-image-2) có thể bị Azure reject dù public OpenAI accept. - Auto-TTS mặc định OFF; bật qua
messages.tts.autohoặc/tts on. - Codex CLI auth import bị gỡ — phải re-auth bằng browser login hoặc device pairing.
- Pricing: OpenAI API key = usage-based; Codex route = ChatGPT/Codex subscription. Tencent Hy3 có tiered pricing qua TokenHub. OpenRouter + LiteLLM catalog giờ fetch async khi startup (timeout 30s).
What's next
OpenClaw ship daily (4.22 hôm nay, 4.21 hôm qua, 4.20 cùng ngày 4.21). Các hint về roadmap từ docs của chính 4.22:
- Cross-provider image controls (quality / mask / user) — sẽ expose khi shared
image_generatecontract được mở rộng. - xAI bidirectional realtime voice — cần contract session mới.
- Codex native compaction readable summary & kept-entry audit — docs cố ý chưa promise (narrow trong 4.22).
- Multi-agent experimental API (
grok-4.20-multi-agent-experimental-beta-0304) — cần integration riêng.
Nguồn: GitHub release 2026.4.22, OpenClaw xAI docs, TTS docs, OpenAI + Azure docs, Models CLI docs, PatchBot.
