Anthropic, AI-resistant 기술 평가 설계 공개…채용 테스트 재설계 과정 공유
Original: Designing AI resistant technical evaluations View original →
Anthropic은 Engineering 글 Designing AI resistant technical evaluations에서 모델 성능 향상이 인재 평가 체계에 미치는 영향을 상세히 공개했다. 게시물은 Published Jan 21, 2026으로 표시되어 있으며, 성능 엔지니어 채용에 사용하던 take-home 과제가 모델 진화에 따라 얼마나 빨리 무력화될 수 있는지 사례 중심으로 설명한다. 핵심은 단순한 부정행위 방지가 아니라, 실제 직무 역량을 계속 구분해내는 평가 신호를 유지하는 것이다.
글에 따르면 해당 과제는 2024년 초부터 운영되어 1,000명 이상이 완료했고, 실제 채용으로도 이어졌다. 그러나 동일 시간 제한에서 Claude Opus 4가 대부분 지원자보다 높은 최적화 결과를 냈고, 이후 Opus 4.5는 상위권 지원자 수준까지 도달했다. 이 변화는 과제 난도를 높이는 방식만으로는 충분하지 않다는 점을 드러냈고, 문제 구조 자체를 반복적으로 바꾸는 접근으로 이어졌다.
운영 측면 변화도 구체적이다. 글은 초기 4-hour 제한을 later reduced to 2 hours로 조정한 이유를 설명한다. 일정 지연을 줄이고 후보자 부담과 파이프라인 효율을 함께 관리하기 위한 선택이었다는 맥락이다. 동시에 평가자는 Claude가 어느 지점에서 막히는지를 분석해 새로운 시작 조건을 설계했고, 공통 미세 최적화만으로는 고득점이 어렵도록 과제를 재구성했다.
Anthropic은 최종적으로 기존 과제를 open challenge 형태로 공개했다. 게시물은 무제한 시간에서는 여전히 인간이 모델을 앞설 수 있다고 언급하면서도, 제한 시간 환경에서는 모델이 빠르게 따라잡는 현실을 인정한다. 이 사례는 기업 채용 평가가 AI 도구 확산 이후 어떤 방향으로 바뀌는지 보여주는 실무 신호다. 평가 문제를 고정 자산으로 보는 대신, 모델 능력 변화에 맞춰 지속적으로 갱신해야 한다는 메시지가 분명하다.
Related Articles
Anthropic은 Claude 선거 안전 장치를 수치로 공개했다. Opus 4.7과 Sonnet 4.6은 600개 프롬프트 선거 정책 시험에서 100%와 99.8%의 적합 응답을 기록했고, 미국 중간선거 관련 질의에서는 웹 검색을 92%와 95% 비율로 호출했다.
Hacker News에서 OpenClaw의 Anthropic page가 다시 오른 이유는 Claude CLI 재사용 가능 여부보다, subscription·CLI·API 경계가 여전히 불명확하다는 개발자 불안 때문이다.
왜 중요한가: AI 에이전트가 채팅 답변을 넘어 실제 거래 협상으로 들어가고 있기 때문이다. Anthropic은 사내 장터 실험에서 69개 에이전트가 500개 넘는 물품 사이에서 186건의 거래를 마무리했고, 총 거래액은 4,000달러를 조금 넘었다고 공개했다.
Comments (0)
No comments yet. Be the first to comment!