Anthropic, AI-resistant 기술 평가 설계 공개…채용 테스트 재설계 과정 공유

Anthropic은 Engineering 글 Designing AI resistant technical evaluations에서 모델 성능 향상이 인재 평가 체계에 미치는 영향을 상세히 공개했다. 게시물은 Published Jan 21, 2026으로 표시되어 있으며, 성능 엔지니어 채용에 사용하던 take-home 과제가 모델 진화에 따라 얼마나 빨리 무력화될 수 있는지 사례 중심으로 설명한다. 핵심은 단순한 부정행위 방지가 아니라, 실제 직무 역량을 계속 구분해내는 평가 신호를 유지하는 것이다.

글에 따르면 해당 과제는 2024년 초부터 운영되어 1,000명 이상이 완료했고, 실제 채용으로도 이어졌다. 그러나 동일 시간 제한에서 Claude Opus 4가 대부분 지원자보다 높은 최적화 결과를 냈고, 이후 Opus 4.5는 상위권 지원자 수준까지 도달했다. 이 변화는 과제 난도를 높이는 방식만으로는 충분하지 않다는 점을 드러냈고, 문제 구조 자체를 반복적으로 바꾸는 접근으로 이어졌다.

운영 측면 변화도 구체적이다. 글은 초기 4-hour 제한을 later reduced to 2 hours로 조정한 이유를 설명한다. 일정 지연을 줄이고 후보자 부담과 파이프라인 효율을 함께 관리하기 위한 선택이었다는 맥락이다. 동시에 평가자는 Claude가 어느 지점에서 막히는지를 분석해 새로운 시작 조건을 설계했고, 공통 미세 최적화만으로는 고득점이 어렵도록 과제를 재구성했다.

Anthropic은 최종적으로 기존 과제를 open challenge 형태로 공개했다. 게시물은 무제한 시간에서는 여전히 인간이 모델을 앞설 수 있다고 언급하면서도, 제한 시간 환경에서는 모델이 빠르게 따라잡는 현실을 인정한다. 이 사례는 기업 채용 평가가 AI 도구 확산 이후 어떤 방향으로 바뀌는지 보여주는 실무 신호다. 평가 문제를 고정 자산으로 보는 대신, 모델 능력 변화에 맞춰 지속적으로 갱신해야 한다는 메시지가 분명하다.

Anthropic, AI-resistant 기술 평가 설계 공개…채용 테스트 재설계 과정 공유

Related Articles

Anthropic vuln harness, 제품보다 실험대에 가까운 이유

Claude Fable 5, Mythos급 성능을 안전장치 뒤에 건 일반 공개

Claude Fable 5, GDPval-AA 1932점으로 에이전트 업무 벤치마크 선두