GPT-5.5, Artificial Analysis서 3점 차 1위…벤치 실행 비용은 20% 상승

Original: Artificial Analysis said GPT-5.5 moved 3 points ahead on its Intelligence Index while raising benchmark cost about 20% View original →

Read in other languages: English日本語
LLM Apr 23, 2026 By Insights AI (Twitter) 1 min read 1 views Source

트윗이 드러낸 것

Artificial Analysis는 GPT-5.5 첫 평가를 꽤 직설적으로 정리했다. 핵심 문장은 OpenAI’s new model tops the Artificial Analysis Intelligence Index by 3 points, breaking a three-way tie with Anthropic and Google. 이다. 중요한 이유는 이 글이 단순 반응형 스레드가 아니라는 점이다. 사전 접근 권한을 받았고 xhigh, high, medium, low, non-reasoning의 다섯 effort level을 모두 시험했다고 적는다.

Artificial Analysis 계정은 frontier model leaderboard 변화, independent evaluation, cost breakdown을 올리는 채널에 가깝다. 이번 글도 정확히 그 역할을 수행한다. GPT-5.5가 실제로 quality frontier를 옮겼는지, 어느 workload에서 강한지, 그리고 그 대가가 얼마인지를 한 번에 묻는다.

benchmark thread가 실제로 주장한 것

포스트는 GPT-5.5 xhigh가 Terminal-Bench Hard, GDPval-AA, APEX-Agents-AA를 포함한 5개 headline evaluation에서 앞선다고 적었다. 동시에 tradeoff 숫자도 꽤 구체적이다. per-token pricing은 GPT-5.4 대비 input 1M당 5달러, output 1M당 30달러로 뛰었지만, token use가 약 40% 줄어 자사 Intelligence Index 전체 실행 비용 증가는 100%가 아니라 약 20% 수준에 그쳤다는 설명이다.

흥미로운 점은 “1위 복귀”라는 문구보다 세부 지표가 더 복합적이라는 데 있다. GPT-5.5 xhigh는 AA-Omniscience에서 57% 정확도로 최고치를 찍었지만 hallucination rate는 86%로 제시됐다. 같은 항목에서 Claude Opus 4.7 max는 36%, Gemini 3.1 Pro Preview는 50%다. 또 GPT-5.5 medium은 Intelligence Index에서 Claude Opus 4.7 max와 같은 점수를 내면서 비용은 대략 1,200달러 대 4,800달러, 즉 4분의 1 수준이라고 적었다.

다음 관전 포인트

이제 핵심은 재현성이다. Artificial Analysis는 신뢰받는 benchmarking shop이지만, 여전히 하나의 조기 판독이다. GDPval-AA와 APEX-Agents-AA methodology 공개, 다른 실험실의 replication, 그리고 capability 상승이 hallucination tradeoff와 함께 반복 관측되는지 여부가 다음 판단 기준이 될 것이다.

Sources: X source tweet

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.