HNで話題になったのは、コーディング評価が正答率からレビュー品質へ移り始めている点だ。FrontierCodeは、人間のmaintainerが受け入れるかを測ろうとする。
#coding-agents
RSS FeedxAIはComposer 2.5をGrok Build内で利用可能にした。複雑な指示と長時間タスクに強いモデルと説明され、投稿は64万超の閲覧を集めた。
coding agentはmodel labの機能に吸収されるだけではない、というCognitionの主張に資金が集まった。同社は$1B超を調達し、valuationは$26B、Devinのrun-rate revenueは$492Mに達した。
DeepSWEは91リポジトリ横断の113課題で、コーディングエージェント評価をより長期作業寄りにした。初回結果はGPT-5.5が70.0%、Claude Opus 4.7が54.2%。
xAIの次期Grok基盤モデルは1.5T規模で学習を終え、現行0.5Tモデルの3倍に達する。Cursorデータを追加し、fine-tuningとRLを経て2〜3週間後の公開が示された。
OpenAIは4月27日、Linearなどのイシュートラッカーを制御プレーンとして使うコーディングエージェントオーケストレーション仕様「Symphony」をオープンソースで公開した。各タスクに自律エージェントを割り当て、PR作成まで自動で処理する。
HNはMistral Medium 3.5を単なるモデル追加として見なかった。4GPU自前運用、オープンウェイト、遠隔コーディングエージェントの組み合わせが議論の中心だった。
LocalLLaMAが真っ先に掴んだのは数字より形だった。Mistral Medium 3.5はreasoning、coding、agent作業を一つにまとめつつ、「これは自分でも回せるかもしれない」と思わせた。その感触がスレッドを熱くした。
これは単純な「ローカルモデルは駄目だ」という愚痴では終わらなかった。期待値の修正に共感する声と、痛みのかなりの部分はハーネス側にもあるという反論が同じスレッドでぶつかったからだ。
LocalLLaMAが熱くなった理由は絶対値の点数だけではない。2026年4月28日のこの投稿は、Qwen 3.6-27BのTerminal-Bench 2.0での38.2%をlate-2025 frontier相当と結びつけ、ローカルコーディングを導入判断の土俵に乗せた。
HNはEvanFlowを新しいエージェント玩具というより、暴走しがちな自動化にブレーキを付ける仕組みとして見ていた。TDDの看板そのものより、チェックポイントや統合テスト、auto-commit禁止の方が強く反応を集めた。
HNは今回のOpenAI記事を、ベンチマークの整理ではなく有名リーダーボードの事実上の終了宣言として読んだ。誰が何点を取ったかより、壊れたテストと汚染が評価をどこまで空洞化したかに関心が集まった。