GPT-5.5, Artificial Analysis서 3점 차 1위…벤치 실행 비용은 20% 상승
Original: Artificial Analysis said GPT-5.5 moved 3 points ahead on its Intelligence Index while raising benchmark cost about 20% View original →
트윗이 드러낸 것
Artificial Analysis는 GPT-5.5 첫 평가를 꽤 직설적으로 정리했다. 핵심 문장은 OpenAI’s new model tops the Artificial Analysis Intelligence Index by 3 points, breaking a three-way tie with Anthropic and Google. 이다. 중요한 이유는 이 글이 단순 반응형 스레드가 아니라는 점이다. 사전 접근 권한을 받았고 xhigh, high, medium, low, non-reasoning의 다섯 effort level을 모두 시험했다고 적는다.
Artificial Analysis 계정은 frontier model leaderboard 변화, independent evaluation, cost breakdown을 올리는 채널에 가깝다. 이번 글도 정확히 그 역할을 수행한다. GPT-5.5가 실제로 quality frontier를 옮겼는지, 어느 workload에서 강한지, 그리고 그 대가가 얼마인지를 한 번에 묻는다.
benchmark thread가 실제로 주장한 것
포스트는 GPT-5.5 xhigh가 Terminal-Bench Hard, GDPval-AA, APEX-Agents-AA를 포함한 5개 headline evaluation에서 앞선다고 적었다. 동시에 tradeoff 숫자도 꽤 구체적이다. per-token pricing은 GPT-5.4 대비 input 1M당 5달러, output 1M당 30달러로 뛰었지만, token use가 약 40% 줄어 자사 Intelligence Index 전체 실행 비용 증가는 100%가 아니라 약 20% 수준에 그쳤다는 설명이다.
흥미로운 점은 “1위 복귀”라는 문구보다 세부 지표가 더 복합적이라는 데 있다. GPT-5.5 xhigh는 AA-Omniscience에서 57% 정확도로 최고치를 찍었지만 hallucination rate는 86%로 제시됐다. 같은 항목에서 Claude Opus 4.7 max는 36%, Gemini 3.1 Pro Preview는 50%다. 또 GPT-5.5 medium은 Intelligence Index에서 Claude Opus 4.7 max와 같은 점수를 내면서 비용은 대략 1,200달러 대 4,800달러, 즉 4분의 1 수준이라고 적었다.
다음 관전 포인트
이제 핵심은 재현성이다. Artificial Analysis는 신뢰받는 benchmarking shop이지만, 여전히 하나의 조기 판독이다. GDPval-AA와 APEX-Agents-AA methodology 공개, 다른 실험실의 replication, 그리고 capability 상승이 hallucination tradeoff와 함께 반복 관측되는지 여부가 다음 판단 기준이 될 것이다.
Sources: X source tweet
Related Articles
LocalLLaMA의 열기는 “모델이 멍청해졌다”는 불평에서 끝나지 않고, provider routing과 quantization, peak-time behavior를 어떻게 측정할지로 번졌다. thread는 확정 증거보다 community가 느끼는 품질 불안의 크기를 보여준다.
r/singularity의 Opus 4.7 thread가 뜨거웠던 이유는 41.0%라는 숫자보다 그 숫자의 원인을 둘러싼 해석 싸움이었다. NYT Connections extended benchmark에서 Opus 4.6의 94.7%와 대비되자, community는 capability regression과 refusal tuning을 나눠 보려 했다.
r/LocalLLaMA가 Qwen3.6 release 자체보다 GGUF quant 선택과 CUDA 버그에 더 크게 반응했다. Unsloth의 benchmark post는 KLD, disk space, 4bit gibberish, CUDA 13.1/13.3 같은 실제 실행 조건을 전면에 올렸다.
Comments (0)
No comments yet. Be the first to comment!