AI Hacker News May 2, 2026 1 min read
大規模な統制実験により、LLMが自分自身で生成した履歴書を人間の書いた履歴書や他のモデルが生成した履歴書より一貫して優遇することが判明した。自己優遇バイアスは67〜82%の範囲で、評価LLMと同じLLMを使って履歴書を作成した応募者は、人間が書いた履歴書を提出した同等の応募者より23〜60%も最終候補に残りやすい。
大規模な統制実験により、LLMが自分自身で生成した履歴書を人間の書いた履歴書や他のモデルが生成した履歴書より一貫して優遇することが判明した。自己優遇バイアスは67〜82%の範囲で、評価LLMと同じLLMを使って履歴書を作成した応募者は、人間が書いた履歴書を提出した同等の応募者より23〜60%も最終候補に残りやすい。
Anthropicは2026年1月21日のEngineering記事で、モデル性能向上に合わせて採用用技術課題を再設計してきた経緯を公開した。Claude Opus 4とOpus 4.5が従来基準を変えたことが、評価設計の見直しを加速させたという内容だ。