Opus 4.7 benchmark 급락에 Reddit이 본 것은 “모델이 약해졌나, 거절이 늘었나”였다
Original: opus 4.7 (high) scores a 41.0% on the nyt connections extended benchmark. opus 4.6 scored 94.7%. View original →
Opus 4.7을 둘러싼 r/singularity의 반응은 benchmark screenshot 하나로 끝나지 않았다. 2026-04-17 14:38:06 UTC에 올라온 post는 crawl 시점 score 1000 안팎과 150개 넘는 comments를 모았다. 제목의 숫자는 강했다. NYT Connections extended benchmark에서 Opus 4.7 high가 41.0%, Opus 4.6이 94.7%였다는 비교다.
연결된 benchmark repository는 NYT Connections puzzles를 extra trick words로 확장해 LLM을 평가하는 project다. Community가 바로 붙잡은 것은 “새 model이 정말 추락했나”였다. 한 top comment는 Opus 4.7 no-reasoning이 62개 model 중 62위, 15.3%였다고 덧붙이며 충격을 키웠다.
하지만 discussion은 곧 더 조심스러운 방향으로 움직였다. Community discussion은 큰 gap의 상당 부분이 safety refusal 때문일 수 있다고 noted했다. Benchmark creator 쪽 update를 인용한 commenter는, refusal로 평가 제외된 부분을 감안해 allowed puzzles만 보면 Opus 4.7이 90.9%였다고 설명했다. 그래도 Opus 4.6보다 낮다는 점은 남는다.
이 차이가 중요한 이유는 benchmark interpretation 때문이다. Capability가 실제로 떨어진 것인지, refusals가 task를 막은 것인지, 혹은 routing과 cost control이 behavior를 바꾼 것인지는 서로 다른 문제다. Reddit users는 “cost saving model” 같은 냉소부터, coding에서는 괜찮지만 reasoning-heavy personal workflow에서는 퇴보했다는 경험담까지 쏟아냈다.
따라서 이 thread의 핵심은 Opus 4.7을 한 숫자로 판정하는 것이 아니다. Benchmarks가 이제 raw correctness뿐 아니라 refusal policy, reasoning mode, token budget, provider-side routing까지 함께 측정해버리는 시대가 됐다는 신호다. r/singularity의 에너지는 바로 그 불편함에서 나왔다. 새 model이 나올 때마다 “더 똑똑해졌다”는 직선 narrative가 더는 자동으로 통하지 않는다는 점이다.
Related Articles
HN 댓글의 열기는 새 model 이름보다 adaptive thinking, token 변화, safety filter가 실제 개발 흐름을 흔들지에 몰렸다. Opus 4.7은 높은 기대와 동시에 최근 Claude 품질 논쟁의 후폭풍을 맞고 있다.
새 arXiv 논문은 낮은 평균 오류율 뒤에 LLM judge의 per-document 불안정성이 숨어 있음을 보였다. SummEval에서 문서 33-67%가 directed 3-cycle을 하나 이상 보였고, prediction set width는 absolute error와 강하게 맞물렸다.
r/artificial이 이 글에 반응한 이유는 Claude가 건조하고 회피적으로 변했다는 막연한 불만을 구체적인 숫자로 바꿔 놨기 때문이다. 공식 벤치마크는 아니지만, 그래서 오히려 현업 사용자의 필드 리포트처럼 읽혔다.
Comments (0)
No comments yet. Be the first to comment!