Opus 4.8, GDPval-AA에서 GPT-5.5보다 121점 앞선 첫 외부 벤치마크

Claude Opus 4.8의 경쟁력은 단순한 모델 출시 소식보다 벤치마크 격차에서 더 선명하다. Artificial Analysis는 Opus 4.8이 GDPval-AA에서 1890점을 기록했고, 다음 순위 모델인 GPT-5.5 xhigh보다 121점 앞섰다고 공개했다. 이 수치는 같은 작업 세트에서 약 67%의 head-to-head 승률을 뜻한다고 설명했다.

Artificial Analysis는 트윗에서 “1890 on GDPval-AA”, “+121 points ahead”라고 요약했다.

원문 트윗은 Anthropic이 공개 전 접근 권한을 제공했고, 전체 Artificial Analysis Intelligence Index 결과는 아직 진행 중이라고 덧붙였다. 이 계정은 주요 LLM의 가격, 속도, 품질 지표를 표준화해 비교하는 벤치마크 계정으로, 공급사 블로그보다 비교 축을 넓혀 보여주는 역할을 해왔다.

맥락은 Anthropic의 Opus 4.8 출시 글과 맞물린다. Anthropic은 Opus 4.8이 Opus 4.7보다 판단과 자기 검증이 좋아졌고, 코드 결함을 그냥 넘길 가능성이 약 4배 낮아졌다고 설명했다. 또 Claude Code에는 더 긴 작업을 맡기는 dynamic workflows, claude.ai에는 effort control, API에는 대화 중 system entries를 넣는 변경이 함께 들어갔다.

GDPval-AA는 “실제 업무형 에이전트 작업”을 겨냥한 평가라는 점에서 SWE-bench류 코딩 점수와 다른 신호를 준다. 다만 최종 Index가 아직 나오지 않았기 때문에, 이 점수가 토큰 비용, 지연 시간, 실패 복구율까지 포함해 얼마나 재현되는지가 다음 확인 지점이다. 개발팀은 Opus 4.8을 바로 기본 모델로 바꾸기보다 내부 작업 세트에서 GPT-5.5, 기존 Opus 4.7과 같은 프롬프트와 예산으로 다시 비교할 필요가 있다.

Opus 4.8, GDPval-AA에서 GPT-5.5보다 121점 앞선 첫 외부 벤치마크

Related Articles

Claude Tag, Slack 채널 안으로 들어온 팀 단위 AI 동료 실험

Claude Fable 5, GDPval-AA 1932점으로 에이전트 업무 벤치마크 선두

Claude Sonnet 5, Opus급 agent 성능을 Free·Pro 기본 모델로