벤치마크 점수 경쟁의 약한 고리가 문제 자체라는 연구가 나왔다. ABA는 168개 벤치마크를 훑어 평가 과제의 25.7% 이상에서 치명적 결함을 찾았고, 필터링 뒤 SWE-bench Verified 평균 성능은 9.9% 달라졌다.
#benchmarks
RSS Feed중요한 이유는 리더보드 순위가 더 싼 학습비와 함께 나왔다는 점이다. Baidu는 ERNIE 5.1 Preview가 LMArena Text에서 글로벌 13위, 중국 랩 1위를 기록했고, 비슷한 모델 대비 사전학습 비용은 약 6% 수준이라고 적었다.
LocalLLaMA가 이 글에 반응한 이유는 홍보 문구가 아니라 숫자였다. RTX 5060 Ti 16GB 두 장으로 Qwen3.6 27B를 약 60 tok/s, 204k 컨텍스트까지 밀어본 실측값이 나왔다.
LocalLLaMA가 뜨거웠던 이유는 절대 점수만이 아니었다. 2026년 4월 28일 올라온 이 글은 Qwen 3.6-27B의 Terminal-Bench 2.0 38.2%를 late-2025 frontier 수준과 연결했고, 그 순간 로컬 코딩은 장난감이 아니라 배치 옵션으로 읽히기 시작했다.
이 숫자가 중요한 이유는 출시 당일 홍보 문구가 아니라 외부 커뮤니티 평가가 GPT-5.5의 현재 위치를 보여주기 때문이다. Arena는 GPT-5.5가 Search Arena 2위, Expert Arena 5위, Code Arena 9위에 올랐고, 코딩 점수는 GPT-5.4보다 50포인트 뛰었다고 적었다.
LocalLLaMA 반응은 놀람보다 체념에 가까웠다. 결국 공개 벤치마크는 이렇게 무너진다는 분위기였다. 이번엔 오염과 flawed test가 숫자로 정리되면서, 기존 자랑 포인트가 더는 안정적으로 보이지 않게 됐다.
이미지 생성 모델이 가장 자주 무너지는 지점은 글자와 레이아웃이라서 이번 업데이트는 실무 영향이 크다. Qwen은 신모델을 내놓으며 텍스트-투-이미지 글로벌 9위와 다국어 타이포그래피 개선을 함께 내세웠다.
왜 중요한가: 코딩 모델 경쟁에서 공용 벤치마크만으로는 실제 체감 차이를 읽기 어려워졌기 때문이다. Cursor는 GPT-5.5가 자체 평가인 CursorBench에서 72.8%로 가장 높았고, 5월 2일까지 가격도 50% 낮춘다고 적었다.
새 벤치마크가 반갑다는 반응이 먼저였지만, HN은 곧바로 한 번만 시키는 점수판이 실제 코딩 모델을 보여주나를 따졌다.
중요한 점은 model launch의 성패가 가중치보다 serving과 training 지원에서 갈린다는 데 있다. LMSYS는 Day-0 stack이 B200에서 199 tok/s, H200에서 266 tok/s를 기록했고 900K context에서도 흐름이 유지된다고 적었다.
xAI가 노리는 곳은 데모 음성 비서가 아니라 실제 업무용 음성 에이전트다. Grok Voice Think Fast 1.0은 τ-voice Bench 1위를 내세웠고, 25개 이상 언어 지원과 함께 Starlink 운영에서 20% 판매 전환, 70% 지원 해결률을 기록했다고 적었다.
OpenAI가 겨냥한 지점은 채팅이 아니라 장기 작업 자동화다. 공개 수치 기준으로 GPT-5.5는 Terminal-Bench 2.0에서 82.7%를 기록해 GPT-5.4보다 7.6%p 높았고, Codex에서는 더 적은 토큰으로 같은 일을 밀어붙인다고 적었다.