Senior SWE-Bench、coding agentを「シニア」と呼べる条件

Senior SWE-Benchは、coding agentを単なるbug修正ツールではなく、シニアエンジニアのような判断を行うシステムとして測ろうとするbenchmarkだ。HNの投稿は2026年7月2日に133 pointsを超え、議論は順位表よりも「シニアとは何か」に向かった。

上位コメントでは、Opus 4.8のsolve rateが24%とされている点に触れ、では有能な人間なら何点なのか、という問いが出た。別のコメントは、業界自体がseniorやstaffといったレベルを正確に評価できていないと指摘していた。

ここが面白い。agent評価は「patchがtestを通るか」から、問題設定、trade-off、codebaseの文脈理解へ移りつつある。重要な能力ほど、客観的な採点に落とし込みにくい。

このbenchmarkはランキング以上に、評価方法そのものを考える材料になる。coding agentをシニアエンジニアと比較するなら、その言葉の中身も同じくらい厳密に扱う必要がある。

LLM 3d ago 1 min read

Snykの300回反復テスト、LLMセキュリティレビューの揺れを可視化

Snyk VulnBench JS 1.0は、同じJavaScript脆弱性レビューを300回繰り返し、LLMの検出結果がどれだけ再現するかを測った。最良のLLM設定はSnyk-reference F1 75.4%で、unmatched findingの49.7%は5回中1回だけ出現した。

LLM Reddit Jun 2, 2026 1 min read

Redditで注目されたのは、Claude代替という見出しよりもtool call error rate 12%という具体的な限界だった。

LLM X/Twitter May 3, 2026 1 min read

Andrej Karpathy氏がSequoia Ascent 2026のファイヤーサイドチャットのハイライトを共有。LLMは既存作業の高速化にとどまらず、以前は不可能だった全く新しい機能カテゴリを切り拓くと主張した。