Anthropic Claude Opus 4.6 출시, GPT-5.2 능가하는 성능 입증

Read in other languages: English日本語
LLM Feb 13, 2026 By Insights AI 1 min read 2 views Source

주요 특징

Anthropic은 2월 5일 Claude Opus 4.6을 출시하며, 적응형 사고(adaptive thinking), 100만 토큰 컨텍스트 윈도우 베타, 128K 최대 출력 토큰을 도입했습니다. 이는 코딩 에이전트 성능에서 Anthropic 역사상 최고 점수를 기록했습니다.

벤치마크 성과

코딩 성능: Terminal Bench에서 Opus 4.5의 59.8%를 넘어 65.4%를 달성했으며, OSWorld 에이전트 컴퓨터 사용 벤치마크에서는 66.3%에서 72.7%로 상승했습니다.

장문 맥락 검색: 이전 버전이 18.5%에 그쳤던 장문 맥락 검색 벤치마크에서 76%를 기록하며 4배 이상의 성능 향상을 보였습니다.

지식 업무: 금융, 법률 등 경제적 가치가 높은 지식 업무를 평가하는 GDPval-AA 벤치마크에서 OpenAI의 GPT-5.2를 약 144 Elo 포인트, 자사의 Opus 4.5를 190 포인트 차로 앞섰습니다.

추가 성취

에이전트 코딩 평가인 Terminal-Bench 2.0에서 최고 점수를 달성했으며, 복잡한 다학제 추론 테스트인 Humanity's Last Exam에서 모든 최신 프론티어 모델을 능가했습니다.

업계 영향

Opus 4.6의 출시는 AI 모델 간 성능 경쟁이 새로운 단계로 접어들었음을 보여줍니다. 특히 기업 환경에서 중요한 지식 업무와 코딩 에이전트 성능에서의 우위는 엔터프라이즈 AI 시장에서 Anthropic의 입지를 강화할 것으로 예상됩니다.

출처: Anthropic

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.