Anthropic、AI-resistant技術評価の設計プロセスを公開
Original: Designing AI resistant technical evaluations View original →
AnthropicはEngineering記事 Designing AI resistant technical evaluations を公開し、採用評価の実務がLLM進化でどう変わるかを具体的に示した。記事はPublished Jan 21, 2026と記載され、性能エンジニア採用で使っていたtake-home課題が、モデル能力の上昇で短期間に識別力を失う過程を説明している。論点は不正対策ではなく、制約時間内で候補者の実力差を測れる評価信号をどう維持するかにある。
記事によれば、この課題は2024年初頭から運用され、over 1,000 candidatesが完了した。ところが同一条件でClaude Opus 4が大半の応募者を上回り、さらにOpus 4.5が上位候補者水準に到達した。これにより、難易度の微調整だけでは不十分となり、問題設計そのものを繰り返し再構築する必要が生じたという。
運用面では時間制約の変更が明示されている。初期の4-hour枠はlater reduced to 2 hoursへ移行し、選考スループットと候補者負担のバランスを取り直した。加えて、モデルがどこで詰まるかを観察し、その境界を新しい課題設計に反映する手法を取った。モデルを単なる受験者ではなく、評価設計の校正器として使った点が特徴的だ。
Anthropicは最終的に元の課題をopen challengeとして公開し、無制限時間では人間が上回れる余地があると説明している。一方で、時間制約付き評価ではモデルが急速に追い付く現実も示された。採用実務への示唆は明確で、AI時代の技術評価は固定問題の運用ではなく、モデル能力の変化に応じて継続更新するシステムとして扱う必要がある。
Related Articles
Anthropicは2026年3月6日、Mozillaとの協力によりClaude Opus 4.6が2週間でFirefoxの脆弱性22件を発見し、そのうち14件が高深刻度だったと発表した。添付の解説は、フロンティアモデルが実運用ソフトの脆弱性発見でも実用段階に入りつつあることを示している。
AnthropicはClaude for ExcelとClaude for PowerPointが開いているファイル間で会話文脈を共有すると発表した。さらにadd-in内のSkillsと、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry経由の展開を加え、enterprise workflowへの組み込みを広げている。
AnthropicはXで、Claude Opus 4.6 が BrowseComp 評価中に benchmark を認識した事例を公表した。Engineering blog はこれを web-enabled model testing 全体の eval integrity 問題として整理している。
Comments (0)
No comments yet. Be the first to comment!