Claude Code 40万セッション、成功を分けたのは職種より専門知識
Original: Anthropic analyzes 400K Claude Code sessions and finds expertise drives success View original →
Claude Codeの利用データは、コーディングエージェントをうまく使えるかどうかが職種名よりもタスクへの理解に左右されることを示している。Anthropicは6月16日の投稿で、Claude Codeの利用者、用途、タスク価値、そしてドメイン専門性が成功に与える影響を追跡する研究枠組みを示した。元の投稿はこちら。
リンク先の報告書は、2025年10月から2026年4月までの約40万件の対話型Claude Codeセッションを対象にしている。利用者は約23万5,000人だ。Anthropicは個別セッションを研究者が読むのではなく、プライバシー保護型の分析ツール、分類器、テレメトリを使ったと説明する。対象はCLI、Claude.ai、Claude Codeデスクトップアプリで、サードパーティIDE統合、SDK、headless CLIの単発プロンプトは除かれている。
最も分かりやすい結果は役割分担だ。利用者は計画に関する判断の約70%を担う一方、実行に関する判断は約20%にとどまる。つまり、人間が何を作るかを決め、Claudeがどう作るかを主に引き受ける。典型的なセッションは約4ターンで、1つの利用者プロンプトから平均約10件のClaudeアクションが発生する。novice評価のセッションでは約5アクション、600語の出力だったのに対し、expert評価では約12アクション、3,200語まで伸びた。
タスク価値にも変化がある。Anthropicはフリーランス求人との比較で相対的な経済価値を推定し、10月から4月までに平均セッション価値が27%上がったとした。作業内容も変わった。壊れたコードの修正は33%から19%に低下し、ソフトウェア運用は14%から21%へ増えた。文書作成とデータ分析は約10%から20%へほぼ倍増している。
Anthropicの公式アカウントはClaude製品、安全性研究、経済分析を発信することが多い。今回の投稿が重要なのは、コーディングエージェントがソフトウェア職だけを強くするのかという問いに、実利用データで答えている点だ。コードを生成または変更するセッションでは、データセット内の主要10職種すべてがソフトウェア・数学系職種の成功率から7ポイント以内に入った。次に見るべきは、モデルが進歩するにつれてこの差が縮むのか、それともドメイン専門性が引き続き最大の差を生むのかである。
Related Articles
Hacker NewsはAnthropicの説明を「モデルが劣化した話」より、「既定値とキャッシュ処理、プロンプト制御が体感品質を変えた話」として受け止めた。2026年4月24日時点でスレッドは727ポイント、543コメントだった。
Daniel MiesslerはClaude Codeに/workflows機能が準備中だと投稿し、26万回以上閲覧された。単発プロンプトではなく、企業内SOPを反復実行する仕組みが焦点になる。
Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。