Opus 4.8, GDPval-AA에서 GPT-5.5보다 121점 앞선 첫 외부 벤치마크
Original: Opus 4.8 leads GPT-5.5 by 121 points on GDPval-AA benchmark View original →
Claude Opus 4.8의 경쟁력은 단순한 모델 출시 소식보다 벤치마크 격차에서 더 선명하다. Artificial Analysis는 Opus 4.8이 GDPval-AA에서 1890점을 기록했고, 다음 순위 모델인 GPT-5.5 xhigh보다 121점 앞섰다고 공개했다. 이 수치는 같은 작업 세트에서 약 67%의 head-to-head 승률을 뜻한다고 설명했다.
Artificial Analysis는 트윗에서 “1890 on GDPval-AA”, “+121 points ahead”라고 요약했다.
원문 트윗은 Anthropic이 공개 전 접근 권한을 제공했고, 전체 Artificial Analysis Intelligence Index 결과는 아직 진행 중이라고 덧붙였다. 이 계정은 주요 LLM의 가격, 속도, 품질 지표를 표준화해 비교하는 벤치마크 계정으로, 공급사 블로그보다 비교 축을 넓혀 보여주는 역할을 해왔다.
맥락은 Anthropic의 Opus 4.8 출시 글과 맞물린다. Anthropic은 Opus 4.8이 Opus 4.7보다 판단과 자기 검증이 좋아졌고, 코드 결함을 그냥 넘길 가능성이 약 4배 낮아졌다고 설명했다. 또 Claude Code에는 더 긴 작업을 맡기는 dynamic workflows, claude.ai에는 effort control, API에는 대화 중 system entries를 넣는 변경이 함께 들어갔다.
GDPval-AA는 “실제 업무형 에이전트 작업”을 겨냥한 평가라는 점에서 SWE-bench류 코딩 점수와 다른 신호를 준다. 다만 최종 Index가 아직 나오지 않았기 때문에, 이 점수가 토큰 비용, 지연 시간, 실패 복구율까지 포함해 얼마나 재현되는지가 다음 확인 지점이다. 개발팀은 Opus 4.8을 바로 기본 모델로 바꾸기보다 내부 작업 세트에서 GPT-5.5, 기존 Opus 4.7과 같은 프롬프트와 예산으로 다시 비교할 필요가 있다.
Related Articles
Anthropic과 KPMG가 5월 19일 글로벌 전략 동맹을 체결했다. KPMG 전 직원 27만 6천 명이 Digital Gateway를 통해 Claude에 접근하며, 조세·사모펀드·사이버보안 분야 에이전트 워크플로우에 우선 적용된다.
Opus 4.8의 fast mode는 같은 모델을 약 2.5배 빠르게 쓰는 선택지다. Claude 계정은 이전 fast mode보다 가격을 3분의 1로 낮췄다고 밝혔다.
새 Opus는 같은 가격, 더 싼 fast mode, Claude Code의 dynamic workflows로 논점이 좁혀졌다. 커뮤니티 반응은 “대형 발표”보다 실제 agent 작업에서 체감될 개선 폭을 따지는 쪽에 가까웠다.
Comments (0)
No comments yet. Be the first to comment!