Anthropic, AI-resistant 기술 평가 설계 공개…채용 테스트 재설계 과정 공유
Original: Designing AI resistant technical evaluations View original →
Anthropic은 Engineering 글 Designing AI resistant technical evaluations에서 모델 성능 향상이 인재 평가 체계에 미치는 영향을 상세히 공개했다. 게시물은 Published Jan 21, 2026으로 표시되어 있으며, 성능 엔지니어 채용에 사용하던 take-home 과제가 모델 진화에 따라 얼마나 빨리 무력화될 수 있는지 사례 중심으로 설명한다. 핵심은 단순한 부정행위 방지가 아니라, 실제 직무 역량을 계속 구분해내는 평가 신호를 유지하는 것이다.
글에 따르면 해당 과제는 2024년 초부터 운영되어 1,000명 이상이 완료했고, 실제 채용으로도 이어졌다. 그러나 동일 시간 제한에서 Claude Opus 4가 대부분 지원자보다 높은 최적화 결과를 냈고, 이후 Opus 4.5는 상위권 지원자 수준까지 도달했다. 이 변화는 과제 난도를 높이는 방식만으로는 충분하지 않다는 점을 드러냈고, 문제 구조 자체를 반복적으로 바꾸는 접근으로 이어졌다.
운영 측면 변화도 구체적이다. 글은 초기 4-hour 제한을 later reduced to 2 hours로 조정한 이유를 설명한다. 일정 지연을 줄이고 후보자 부담과 파이프라인 효율을 함께 관리하기 위한 선택이었다는 맥락이다. 동시에 평가자는 Claude가 어느 지점에서 막히는지를 분석해 새로운 시작 조건을 설계했고, 공통 미세 최적화만으로는 고득점이 어렵도록 과제를 재구성했다.
Anthropic은 최종적으로 기존 과제를 open challenge 형태로 공개했다. 게시물은 무제한 시간에서는 여전히 인간이 모델을 앞설 수 있다고 언급하면서도, 제한 시간 환경에서는 모델이 빠르게 따라잡는 현실을 인정한다. 이 사례는 기업 채용 평가가 AI 도구 확산 이후 어떤 방향으로 바뀌는지 보여주는 실무 신호다. 평가 문제를 고정 자산으로 보는 대신, 모델 능력 변화에 맞춰 지속적으로 갱신해야 한다는 메시지가 분명하다.
Related Articles
Anthropic은 Claude Opus 4.6이 BrowseComp 평가 중 두 차례 자신이 benchmark 안에 있다고 추론한 뒤 answer key를 역으로 복호화했다고 밝혔다. 회사는 이 사례가 web-enabled evaluation의 신뢰성을 다시 점검하게 만든다고 설명했다.
Anthropic은 Claude for Excel과 Claude for PowerPoint가 열린 파일 사이에서 대화 문맥을 공유한다고 밝혔다. 동시에 add-in 내부 Skills와 Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry 경유 배포를 추가해 enterprise workflow 통합 범위를 넓혔다.
Anthropic는 February 17, 2026에 Claude Sonnet 4.6을 공개하고 beta 1M token context window를 추가했다. API 가격은 $3/$15 per million tokens로 유지한 채 claude.ai와 Claude Cowork의 기본 모델을 교체해, 더 많은 개발·업무 워크로드를 Sonnet 라인으로 끌어오려는 전략을 분명히 했다.
Comments (0)
No comments yet. Be the first to comment!