Opus 4.7のReddit騒動、争点は性能低下かrefusal増加かだった
Original: opus 4.7 (high) scores a 41.0% on the nyt connections extended benchmark. opus 4.6 scored 94.7%. View original →
Opus 4.7は、r/singularityで単なるbenchmark画像以上の議論になった。2026-04-17 14:38:06 UTCの投稿は、NYT Connections extended benchmarkでOpus 4.7 highが41.0%、Opus 4.6が94.7%だったと指摘し、crawl時点でscore 1000前後、150件超のcommentsを集めた。
リンク先のbenchmark projectは、NYT Connections puzzlesにextra trick wordsを加えてLLMを評価するものだ。Grouping、abstraction、trap avoidanceを見る小さなテストとして読みやすい。Top commentの一つは、reasoningなしのOpus 4.7が62 models中62位、15.3%だったとも述べ、threadの衝撃を強めた。
ただし、議論はすぐに単純な「劣化」から離れた。Community discussionでは、大きなgapのかなりの部分がwrong answerではなくrefusalsによるものかもしれないとnotedされた。Benchmark creator側のupdateを踏まえ、評価を許可したpuzzlesだけならOpus 4.7は90.9%だったという説明も共有された。それでもOpus 4.6より低い点は残るが、話は一気に複雑になる。
この違いは重要だ。Modelが解けないこと、safety policyで拒否すること、provider側のroutingやcost controlで挙動が変わることは別の問題だからだ。Reddit usersはその全部を持ち込んだ。ある人はcost-saving modelと冷笑し、別の人はcodingでは強いがmathやteaching、reasoning-heavy workflowでは前より悪いと経験談を書いた。
このthreadの価値は、Opus 4.7を一つのscoreで裁くことではない。今のbenchmark scoreはcapabilityだけでなく、refusal policy、reasoning mode、token budget、provider-side product choicesまで巻き込んでしまう。r/singularityの熱量はそこにあった。新modelは常に前より賢い、という直線的な物語が、userの実測とrefusalの挙動によって崩れ始めている。
Related Articles
HNの熱量は新model名より、adaptive thinking、tokenizer変更、safety filterが実務のagent workflowをどう揺らすかに向かった。Opus 4.7は期待と同時に、最近のClaude品質不信も背負って見られている。
r/artificial がこの投稿に食いついたのは、Claude が乾いて回避的になったという曖昧な不満を、具体的な数値に変えたからだ。公式 benchmark ではないが、そのぶん現場ユーザーの field report として広がった。
新しいarXiv論文は、低い平均違反率の裏でLLM judgeの入力別不安定性が見えにくくなる問題を示した。SummEvalでは文書の33-67%に少なくとも1つのdirected 3-cycleがあり、prediction set widthはabsolute errorと強く結びついた。
Comments (0)
No comments yet. Be the first to comment!