Anthropic、AI-resistant技術評価の設計プロセスを公開
Original: Designing AI resistant technical evaluations View original →
AnthropicはEngineering記事 Designing AI resistant technical evaluations を公開し、採用評価の実務がLLM進化でどう変わるかを具体的に示した。記事はPublished Jan 21, 2026と記載され、性能エンジニア採用で使っていたtake-home課題が、モデル能力の上昇で短期間に識別力を失う過程を説明している。論点は不正対策ではなく、制約時間内で候補者の実力差を測れる評価信号をどう維持するかにある。
記事によれば、この課題は2024年初頭から運用され、over 1,000 candidatesが完了した。ところが同一条件でClaude Opus 4が大半の応募者を上回り、さらにOpus 4.5が上位候補者水準に到達した。これにより、難易度の微調整だけでは不十分となり、問題設計そのものを繰り返し再構築する必要が生じたという。
運用面では時間制約の変更が明示されている。初期の4-hour枠はlater reduced to 2 hoursへ移行し、選考スループットと候補者負担のバランスを取り直した。加えて、モデルがどこで詰まるかを観察し、その境界を新しい課題設計に反映する手法を取った。モデルを単なる受験者ではなく、評価設計の校正器として使った点が特徴的だ。
Anthropicは最終的に元の課題をopen challengeとして公開し、無制限時間では人間が上回れる余地があると説明している。一方で、時間制約付き評価ではモデルが急速に追い付く現実も示された。採用実務への示唆は明確で、AI時代の技術評価は固定問題の運用ではなく、モデル能力の変化に応じて継続更新するシステムとして扱う必要がある。
Related Articles
AnthropicはClaudeの選挙安全策を数値で公開した。Opus 4.7とSonnet 4.6は600件の選挙ポリシー試験で100%と99.8%の適切応答を示し、米中間選挙関連の質問では92%と95%の割合でウェブ検索を起動した。
なぜ重要か。AIエージェントが会話デモから実際の取引代行へ進み始めたからだ。Anthropicは社内マーケット実験で69体のエージェントが500超の出品から186件をまとめ、取引額は4,000ドルを少し超えたと示した。
HNは一人の解約体験をただの愚痴として流さなかった。高いという不満より、慣れた開発フローの土台が静かに揺れる怖さの方が大きく共有された。
Comments (0)
No comments yet. Be the first to comment!