GPT-5.5, Artificial Analysis서 3점 차 1위…벤치 실행 비용은 20% 상승
Original: Artificial Analysis said GPT-5.5 moved 3 points ahead on its Intelligence Index while raising benchmark cost about 20% View original →
트윗이 드러낸 것
Artificial Analysis는 GPT-5.5 첫 평가를 꽤 직설적으로 정리했다. 핵심 문장은 OpenAI’s new model tops the Artificial Analysis Intelligence Index by 3 points, breaking a three-way tie with Anthropic and Google. 이다. 중요한 이유는 이 글이 단순 반응형 스레드가 아니라는 점이다. 사전 접근 권한을 받았고 xhigh, high, medium, low, non-reasoning의 다섯 effort level을 모두 시험했다고 적는다.
Artificial Analysis 계정은 frontier model leaderboard 변화, independent evaluation, cost breakdown을 올리는 채널에 가깝다. 이번 글도 정확히 그 역할을 수행한다. GPT-5.5가 실제로 quality frontier를 옮겼는지, 어느 workload에서 강한지, 그리고 그 대가가 얼마인지를 한 번에 묻는다.
benchmark thread가 실제로 주장한 것
포스트는 GPT-5.5 xhigh가 Terminal-Bench Hard, GDPval-AA, APEX-Agents-AA를 포함한 5개 headline evaluation에서 앞선다고 적었다. 동시에 tradeoff 숫자도 꽤 구체적이다. per-token pricing은 GPT-5.4 대비 input 1M당 5달러, output 1M당 30달러로 뛰었지만, token use가 약 40% 줄어 자사 Intelligence Index 전체 실행 비용 증가는 100%가 아니라 약 20% 수준에 그쳤다는 설명이다.
흥미로운 점은 “1위 복귀”라는 문구보다 세부 지표가 더 복합적이라는 데 있다. GPT-5.5 xhigh는 AA-Omniscience에서 57% 정확도로 최고치를 찍었지만 hallucination rate는 86%로 제시됐다. 같은 항목에서 Claude Opus 4.7 max는 36%, Gemini 3.1 Pro Preview는 50%다. 또 GPT-5.5 medium은 Intelligence Index에서 Claude Opus 4.7 max와 같은 점수를 내면서 비용은 대략 1,200달러 대 4,800달러, 즉 4분의 1 수준이라고 적었다.
다음 관전 포인트
이제 핵심은 재현성이다. Artificial Analysis는 신뢰받는 benchmarking shop이지만, 여전히 하나의 조기 판독이다. GDPval-AA와 APEX-Agents-AA methodology 공개, 다른 실험실의 replication, 그리고 capability 상승이 hallucination tradeoff와 함께 반복 관측되는지 여부가 다음 판단 기준이 될 것이다.
Sources: X source tweet
Related Articles
OpenAI가 겨냥한 지점은 채팅이 아니라 장기 작업 자동화다. 공개 수치 기준으로 GPT-5.5는 Terminal-Bench 2.0에서 82.7%를 기록해 GPT-5.4보다 7.6%p 높았고, Codex에서는 더 적은 토큰으로 같은 일을 밀어붙인다고 적었다.
HN은 GPT-5.5 출시 소식을 축하보다 검산으로 받았다. 첫 반응은 얼마나 똑똑한가보다 가격, 컨텍스트 구간, 그리고 코딩 태도가 정말 나아졌는가였다.
Hacker News에서 화제가 된 llm-circuit-finder는 training 없이 layer routing만으로 reasoning score를 끌어올릴 수 있다고 주장한다. 하지만 README의 전체 benchmark는 IFEval/MBPP와 평균 점수 하락도 보여 주며, 이 접근은 universal improvement보다 capability steering으로 보는 편이 더 타당하다.