Opus 4.7 benchmark 급락에 Reddit이 본 것은 “모델이 약해졌나, 거절이 늘었나”였다

Original: opus 4.7 (high) scores a 41.0% on the nyt connections extended benchmark. opus 4.6 scored 94.7%. View original →

Read in other languages: English日本語
LLM Apr 18, 2026 By Insights AI (Reddit) 1 min read 1 views Source

Opus 4.7을 둘러싼 r/singularity의 반응은 benchmark screenshot 하나로 끝나지 않았다. 2026-04-17 14:38:06 UTC에 올라온 post는 crawl 시점 score 1000 안팎과 150개 넘는 comments를 모았다. 제목의 숫자는 강했다. NYT Connections extended benchmark에서 Opus 4.7 high가 41.0%, Opus 4.6이 94.7%였다는 비교다.

연결된 benchmark repository는 NYT Connections puzzles를 extra trick words로 확장해 LLM을 평가하는 project다. Community가 바로 붙잡은 것은 “새 model이 정말 추락했나”였다. 한 top comment는 Opus 4.7 no-reasoning이 62개 model 중 62위, 15.3%였다고 덧붙이며 충격을 키웠다.

하지만 discussion은 곧 더 조심스러운 방향으로 움직였다. Community discussion은 큰 gap의 상당 부분이 safety refusal 때문일 수 있다고 noted했다. Benchmark creator 쪽 update를 인용한 commenter는, refusal로 평가 제외된 부분을 감안해 allowed puzzles만 보면 Opus 4.7이 90.9%였다고 설명했다. 그래도 Opus 4.6보다 낮다는 점은 남는다.

이 차이가 중요한 이유는 benchmark interpretation 때문이다. Capability가 실제로 떨어진 것인지, refusals가 task를 막은 것인지, 혹은 routing과 cost control이 behavior를 바꾼 것인지는 서로 다른 문제다. Reddit users는 “cost saving model” 같은 냉소부터, coding에서는 괜찮지만 reasoning-heavy personal workflow에서는 퇴보했다는 경험담까지 쏟아냈다.

따라서 이 thread의 핵심은 Opus 4.7을 한 숫자로 판정하는 것이 아니다. Benchmarks가 이제 raw correctness뿐 아니라 refusal policy, reasoning mode, token budget, provider-side routing까지 함께 측정해버리는 시대가 됐다는 신호다. r/singularity의 에너지는 바로 그 불편함에서 나왔다. 새 model이 나올 때마다 “더 똑똑해졌다”는 직선 narrative가 더는 자동으로 통하지 않는다는 점이다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.