xAIがGrok Build CLIの基盤モデルをAPI betaとして開いた。入力100万トークン$1、出力100万トークン$2という価格は、長時間動くコーディングエージェントの費用構造に直接響く。
xAIがGrok Build CLIの基盤モデルをAPI betaとして開いた。入力100万トークン$1、出力100万トークン$2という価格は、長時間動くコーディングエージェントの費用構造に直接響く。
xAIがコーディング・アプリ開発・ワークフロー自動化向けのエージェントCLIツール「Grok Build」のアーリーベータをSuperGrok Heavyサブスクライバー向けに公開した。発表ツイートは4,100万回以上の表示を記録した。
ローカル運用まで見据えたオープンウェイトのコードモデルはまだ少ない。Poolsideは単一GPU級の33B総量 / 3B活性MoE「Laguna XS.2」を前面に出し、技術解説ではSWE-bench Pro 44.5%を掲げた。
HNが先に反応したのは不具合そのものより、まず金が漏れる構造だった。Claude Managed Agentsがファイルを読むたびにmalware reminderを足し、そのあと無害なコード編集まで断るという報告が、トークン課金と見えないharnessへの不信に火をつけた。
問題は一時的な障害ではなく、開発トラフィックの質が変わったことだ。GitHubは2025年10月に始めた10倍増強計画を2026年2月には30倍前提へ引き上げ、4月23日の障害では230リポジトリと2,092件のPRが影響を受けた。
HNが反応したのは料金据え置きより、2026年6月1日からCopilotが実質的にトークン課金へ寄る点だった。長いエージェント実行を同じ月額で抱える時代が終わる、という読みがスレッドの中心にある。
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。
OpenAIが前に出したのは単なる性能更新ではない。Terminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%を示しつつ、GPT-5.4級のレイテンシーを保つとして、長い作業を任せるコーディングエージェントの基準を押し上げた。
Hacker Newsで大きく広がったClaude Code quota論争は、単なる使用量への不満ではなく、1M-context agent workflowでprompt caching、background session、auto-compactが実際の上限計算にどう効くのかを問う議論になった。GitHub issueの投稿者はApril 9, 2026の計測値を示し、論点はcache accountingとquota transparencyへ移った。
Hacker News で浮上した Z.ai の GLM-5.1 は、one-shot の勝ち負けよりも長時間の agentic work を前面に出している。Z.ai は SWE-Bench Pro 58.4、NL2Repo 42.7、Terminal Bench 2.0 66.5 を示し、数百回の iteration と数千回の tool call を通じて改善が続く実験も公開した。
CursorがComposer 2の学習方法を説明する技術報告を公開した。同社はcontinued pretrainingと大規模reinforcement learningを組み合わせ、CursorBench 61.3、Terminal-Bench 61.7、SWE-bench Multilingual 73.7を記録したとしている。
OpenAI Developersは2026年3月29日のX投稿で、Codex Securityによって脆弱性の発見、検証、修正を支援すると発表した。AI coding tool が application security workflow に踏み込む動きとして注目される。