Anthropic Claude Opus 4.6 출시, GPT-5.2 능가하는 성능 입증
주요 특징
Anthropic은 2월 5일 Claude Opus 4.6을 출시하며, 적응형 사고(adaptive thinking), 100만 토큰 컨텍스트 윈도우 베타, 128K 최대 출력 토큰을 도입했습니다. 이는 코딩 에이전트 성능에서 Anthropic 역사상 최고 점수를 기록했습니다.
벤치마크 성과
코딩 성능: Terminal Bench에서 Opus 4.5의 59.8%를 넘어 65.4%를 달성했으며, OSWorld 에이전트 컴퓨터 사용 벤치마크에서는 66.3%에서 72.7%로 상승했습니다.
장문 맥락 검색: 이전 버전이 18.5%에 그쳤던 장문 맥락 검색 벤치마크에서 76%를 기록하며 4배 이상의 성능 향상을 보였습니다.
지식 업무: 금융, 법률 등 경제적 가치가 높은 지식 업무를 평가하는 GDPval-AA 벤치마크에서 OpenAI의 GPT-5.2를 약 144 Elo 포인트, 자사의 Opus 4.5를 190 포인트 차로 앞섰습니다.
추가 성취
에이전트 코딩 평가인 Terminal-Bench 2.0에서 최고 점수를 달성했으며, 복잡한 다학제 추론 테스트인 Humanity's Last Exam에서 모든 최신 프론티어 모델을 능가했습니다.
업계 영향
Opus 4.6의 출시는 AI 모델 간 성능 경쟁이 새로운 단계로 접어들었음을 보여줍니다. 특히 기업 환경에서 중요한 지식 업무와 코딩 에이전트 성능에서의 우위는 엔터프라이즈 AI 시장에서 Anthropic의 입지를 강화할 것으로 예상됩니다.
출처: Anthropic
Related Articles
일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.
Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
Claude Opus 4.8의 강점이 코딩 벤치마크를 넘어 실제 업무형 에이전트 평가로 확장됐다. Artificial Analysis는 max effort 기준 1890점을 기록해 GPT-5.5 xhigh보다 121점 앞섰다고 밝혔다.