Skip to content
부식 중

Claude Opus 4.6, 벤치마크 기록 경신하며 GPT-5.2 압도

LLM Feb 8, 2026 By Insights AI 1 min read 6 views Source
This article is not available in your selected language. Showing the original version.

기록적인 추론 벤치마크

2월 4일 공개된 Claude Opus 4.6은 Anthropic의 새 플래그십 모델로, 추론과 코딩 능력에서 새로운 기준을 제시했다. ARC AGI 2 벤치마크(인간에게는 쉽지만 AI에게는 매우 어려운 문제)에서 68.8%를 기록하며, OpenAI GPT-5.2의 54.2%, Google Gemini 3 Pro를 넘어섰다.

실무 작업에서의 우위

금융·법률 등 전문 업무를 평가하는 GDPval-AA 벤치마크에서 Opus 4.6은 GPT-5.2보다 약 144 Elo 포인트 앞섰다. 또한 Terminal Bench에서 65.4%(4.5 대비 59.8%에서 상승), OSWorld 에이전틱 벤치마크에서 72.7%(66.3%에서 상승)를 기록하며 컴퓨터 사용 에이전트로서의 성능을 입증했다.

100만 토큰 컨텍스트 윈도우

Opus 4.6은 100만 토큰 컨텍스트 윈도우를 지원하며, 긴 컨텍스트 성능을 평가하는 MRCR v2 8-needle 1M 벤치마크에서 76%를 기록했다(Sonnet 4.5는 18.5%).

산업 파급효과

Opus 4.6 출시 직후 GitHub, Atlassian, ServiceNow 등 소프트웨어 기업 주가가 하락했다. 분석가들은 강력한 AI 코딩 도구가 개발자 생산성 소프트웨어 수요를 줄일 수 있다고 우려했다.

가용성

Opus 4.6은 Claude.ai, Claude Code, API를 통해 이용 가능하다. 에이전트 팀 기능과 통합되어 복잡한 워크플로우를 자동화할 수 있다.

Source: Anthropic, The New Stack, WinBuzzer

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment