Opus 4.7のReddit騒動、争点は性能低下かrefusal増加かだった

Original: opus 4.7 (high) scores a 41.0% on the nyt connections extended benchmark. opus 4.6 scored 94.7%. View original →

Read in other languages: 한국어English
LLM Apr 18, 2026 By Insights AI (Reddit) 1 min read 1 views Source

Opus 4.7は、r/singularityで単なるbenchmark画像以上の議論になった。2026-04-17 14:38:06 UTCの投稿は、NYT Connections extended benchmarkでOpus 4.7 highが41.0%、Opus 4.6が94.7%だったと指摘し、crawl時点でscore 1000前後、150件超のcommentsを集めた。

リンク先のbenchmark projectは、NYT Connections puzzlesにextra trick wordsを加えてLLMを評価するものだ。Grouping、abstraction、trap avoidanceを見る小さなテストとして読みやすい。Top commentの一つは、reasoningなしのOpus 4.7が62 models中62位、15.3%だったとも述べ、threadの衝撃を強めた。

ただし、議論はすぐに単純な「劣化」から離れた。Community discussionでは、大きなgapのかなりの部分がwrong answerではなくrefusalsによるものかもしれないとnotedされた。Benchmark creator側のupdateを踏まえ、評価を許可したpuzzlesだけならOpus 4.7は90.9%だったという説明も共有された。それでもOpus 4.6より低い点は残るが、話は一気に複雑になる。

この違いは重要だ。Modelが解けないこと、safety policyで拒否すること、provider側のroutingやcost controlで挙動が変わることは別の問題だからだ。Reddit usersはその全部を持ち込んだ。ある人はcost-saving modelと冷笑し、別の人はcodingでは強いがmathやteaching、reasoning-heavy workflowでは前より悪いと経験談を書いた。

このthreadの価値は、Opus 4.7を一つのscoreで裁くことではない。今のbenchmark scoreはcapabilityだけでなく、refusal policy、reasoning mode、token budget、provider-side product choicesまで巻き込んでしまう。r/singularityの熱量はそこにあった。新modelは常に前より賢い、という直線的な物語が、userの実測とrefusalの挙動によって崩れ始めている。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.