Anthropic、AI-resistant技術評価の設計プロセスを公開

AnthropicはEngineering記事 Designing AI resistant technical evaluations を公開し、採用評価の実務がLLM進化でどう変わるかを具体的に示した。記事はPublished Jan 21, 2026と記載され、性能エンジニア採用で使っていたtake-home課題が、モデル能力の上昇で短期間に識別力を失う過程を説明している。論点は不正対策ではなく、制約時間内で候補者の実力差を測れる評価信号をどう維持するかにある。

記事によれば、この課題は2024年初頭から運用され、over 1,000 candidatesが完了した。ところが同一条件でClaude Opus 4が大半の応募者を上回り、さらにOpus 4.5が上位候補者水準に到達した。これにより、難易度の微調整だけでは不十分となり、問題設計そのものを繰り返し再構築する必要が生じたという。

運用面では時間制約の変更が明示されている。初期の4-hour枠はlater reduced to 2 hoursへ移行し、選考スループットと候補者負担のバランスを取り直した。加えて、モデルがどこで詰まるかを観察し、その境界を新しい課題設計に反映する手法を取った。モデルを単なる受験者ではなく、評価設計の校正器として使った点が特徴的だ。

Anthropicは最終的に元の課題をopen challengeとして公開し、無制限時間では人間が上回れる余地があると説明している。一方で、時間制約付き評価ではモデルが急速に追い付く現実も示された。採用実務への示唆は明確で、AI時代の技術評価は固定問題の運用ではなく、モデル能力の変化に応じて継続更新するシステムとして扱う必要がある。

Anthropic、AI-resistant技術評価の設計プロセスを公開

Related Articles

Anthropicの脆弱性発見harness、製品というよりチーム用の設計図

Claude Fable 5、Mythos級AIを慎重なフォールバック付きで一般公開

Claude Fable 5、GDPval-AA 1932点でエージェント業務評価の首位へ