GPT-5.5, Artificial Analysis서 3점 차 1위…벤치 실행 비용은 20% 상승

트윗이 드러낸 것

Artificial Analysis는 GPT-5.5 첫 평가를 꽤 직설적으로 정리했다. 핵심 문장은 OpenAI’s new model tops the Artificial Analysis Intelligence Index by 3 points, breaking a three-way tie with Anthropic and Google. 이다. 중요한 이유는 이 글이 단순 반응형 스레드가 아니라는 점이다. 사전 접근 권한을 받았고 xhigh, high, medium, low, non-reasoning의 다섯 effort level을 모두 시험했다고 적는다.

Artificial Analysis 계정은 frontier model leaderboard 변화, independent evaluation, cost breakdown을 올리는 채널에 가깝다. 이번 글도 정확히 그 역할을 수행한다. GPT-5.5가 실제로 quality frontier를 옮겼는지, 어느 workload에서 강한지, 그리고 그 대가가 얼마인지를 한 번에 묻는다.

benchmark thread가 실제로 주장한 것

포스트는 GPT-5.5 xhigh가 Terminal-Bench Hard, GDPval-AA, APEX-Agents-AA를 포함한 5개 headline evaluation에서 앞선다고 적었다. 동시에 tradeoff 숫자도 꽤 구체적이다. per-token pricing은 GPT-5.4 대비 input 1M당 5달러, output 1M당 30달러로 뛰었지만, token use가 약 40% 줄어 자사 Intelligence Index 전체 실행 비용 증가는 100%가 아니라 약 20% 수준에 그쳤다는 설명이다.

흥미로운 점은 “1위 복귀”라는 문구보다 세부 지표가 더 복합적이라는 데 있다. GPT-5.5 xhigh는 AA-Omniscience에서 57% 정확도로 최고치를 찍었지만 hallucination rate는 86%로 제시됐다. 같은 항목에서 Claude Opus 4.7 max는 36%, Gemini 3.1 Pro Preview는 50%다. 또 GPT-5.5 medium은 Intelligence Index에서 Claude Opus 4.7 max와 같은 점수를 내면서 비용은 대략 1,200달러 대 4,800달러, 즉 4분의 1 수준이라고 적었다.

다음 관전 포인트

이제 핵심은 재현성이다. Artificial Analysis는 신뢰받는 benchmarking shop이지만, 여전히 하나의 조기 판독이다. GDPval-AA와 APEX-Agents-AA methodology 공개, 다른 실험실의 replication, 그리고 capability 상승이 hallucination tradeoff와 함께 반복 관측되는지 여부가 다음 판단 기준이 될 것이다.

Sources: X source tweet

GPT-5.5, Artificial Analysis서 3점 차 1위…벤치 실행 비용은 20% 상승

트윗이 드러낸 것

benchmark thread가 실제로 주장한 것

다음 관전 포인트

Related Articles

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델

Kimi K3, 비공개 보안 벤치마크에서 GPT-5.6 대비 비용 우위 부각

OpenAI GPT-5.5 가동, Terminal-Bench 82.7%로 Codex 장기 작업 상향

Related Articles

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델
일상형 고성능 모델 경쟁의 초점이 최고점보다 비용당 성능으로 옮겨갔다. Claude Opus 5는 Fable 5에 가까운 코딩·지식 작업 성능을 절반 가격으로 내세우며, API 가격은 입력 $5/M·출력 $25/M 토큰으로 책정됐다.

Kimi K3, 비공개 보안 벤치마크에서 GPT-5.6 대비 비용 우위 부각
LLM X/Twitter Jul 19, 2026 1 min read

OpenAI GPT-5.5 가동, Terminal-Bench 82.7%로 Codex 장기 작업 상향
LLM X/Twitter Apr 25, 2026 1 min read