Opus 4.7のReddit騒動、争点は性能低下かrefusal増加かだった

Opus 4.7は、r/singularityで単なるbenchmark画像以上の議論になった。2026-04-17 14:38:06 UTCの投稿は、NYT Connections extended benchmarkでOpus 4.7 highが41.0%、Opus 4.6が94.7%だったと指摘し、crawl時点でscore 1000前後、150件超のcommentsを集めた。

リンク先のbenchmark projectは、NYT Connections puzzlesにextra trick wordsを加えてLLMを評価するものだ。Grouping、abstraction、trap avoidanceを見る小さなテストとして読みやすい。Top commentの一つは、reasoningなしのOpus 4.7が62 models中62位、15.3%だったとも述べ、threadの衝撃を強めた。

ただし、議論はすぐに単純な「劣化」から離れた。Community discussionでは、大きなgapのかなりの部分がwrong answerではなくrefusalsによるものかもしれないとnotedされた。Benchmark creator側のupdateを踏まえ、評価を許可したpuzzlesだけならOpus 4.7は90.9%だったという説明も共有された。それでもOpus 4.6より低い点は残るが、話は一気に複雑になる。

この違いは重要だ。Modelが解けないこと、safety policyで拒否すること、provider側のroutingやcost controlで挙動が変わることは別の問題だからだ。Reddit usersはその全部を持ち込んだ。ある人はcost-saving modelと冷笑し、別の人はcodingでは強いがmathやteaching、reasoning-heavy workflowでは前より悪いと経験談を書いた。

このthreadの価値は、Opus 4.7を一つのscoreで裁くことではない。今のbenchmark scoreはcapabilityだけでなく、refusal policy、reasoning mode、token budget、provider-side product choicesまで巻き込んでしまう。r/singularityの熱量はそこにあった。新modelは常に前より賢い、という直線的な物語が、userの実測とrefusalの挙動によって崩れ始めている。

Opus 4.7のReddit騒動、争点は性能低下かrefusal増加かだった

Related Articles

Claude Opus 4.7、HNはbenchmarkよりadaptive thinkingと信頼回復を見た

Claudeがセッション中に「寝てください」を繰り返す — Anthropicも原因不明

Opus 4.8、GDPval-AAでGPT-5.5を121点上回る外部評価

Comments (0)

Leave a Comment