Anthropic Claude Opus 4.6 출시, GPT-5.2 능가하는 성능 입증
주요 특징
Anthropic은 2월 5일 Claude Opus 4.6을 출시하며, 적응형 사고(adaptive thinking), 100만 토큰 컨텍스트 윈도우 베타, 128K 최대 출력 토큰을 도입했습니다. 이는 코딩 에이전트 성능에서 Anthropic 역사상 최고 점수를 기록했습니다.
벤치마크 성과
코딩 성능: Terminal Bench에서 Opus 4.5의 59.8%를 넘어 65.4%를 달성했으며, OSWorld 에이전트 컴퓨터 사용 벤치마크에서는 66.3%에서 72.7%로 상승했습니다.
장문 맥락 검색: 이전 버전이 18.5%에 그쳤던 장문 맥락 검색 벤치마크에서 76%를 기록하며 4배 이상의 성능 향상을 보였습니다.
지식 업무: 금융, 법률 등 경제적 가치가 높은 지식 업무를 평가하는 GDPval-AA 벤치마크에서 OpenAI의 GPT-5.2를 약 144 Elo 포인트, 자사의 Opus 4.5를 190 포인트 차로 앞섰습니다.
추가 성취
에이전트 코딩 평가인 Terminal-Bench 2.0에서 최고 점수를 달성했으며, 복잡한 다학제 추론 테스트인 Humanity's Last Exam에서 모든 최신 프론티어 모델을 능가했습니다.
업계 영향
Opus 4.6의 출시는 AI 모델 간 성능 경쟁이 새로운 단계로 접어들었음을 보여줍니다. 특히 기업 환경에서 중요한 지식 업무와 코딩 에이전트 성능에서의 우위는 엔터프라이즈 AI 시장에서 Anthropic의 입지를 강화할 것으로 예상됩니다.
출처: Anthropic
Related Articles
Anthropic는 February 17, 2026에 Claude Sonnet 4.6을 공개하고 beta 1M token context window를 추가했다. API 가격은 $3/$15 per million tokens로 유지한 채 claude.ai와 Claude Cowork의 기본 모델을 교체해, 더 많은 개발·업무 워크로드를 Sonnet 라인으로 끌어오려는 전략을 분명히 했다.
Anthropic이 2월 17일 Claude Sonnet 4.6을 출시하고 무료·Pro 플랜 기본 모델로 전환했다. 100만 토큰 컨텍스트(베타)와 Opus급 코딩 성능을 Sonnet 가격에 제공한다.
Anthropic는 2026년 3월 6일 Mozilla와의 협업을 통해 Claude Opus 4.6이 2주 동안 Firefox 취약점 22건을 찾아냈고, 이 중 14건이 고위험군이라고 밝혔다. 공개된 설명은 프런티어 모델이 벤치마크를 넘어 실제 취약점 발굴에도 의미 있는 성과를 내기 시작했음을 시사한다.
Comments (0)
No comments yet. Be the first to comment!