Claude解約記事にHNが重ねた不安、料金より怖い性能の揺れ
Original: I cancelled Claude: Token issues, declining quality, and poor support View original →
HNは「I cancelled Claude」を一人の不満投稿として処理しなかった。議論はすぐ、もっと大きい問題へ広がった。チームがproprietaryなcoding assistantに作業習慣を合わせたあとで、性能や上限やサポートの感触が崩れ始めたら、それは単なる愚痴ではなく運用上の問題になるということだ。元記事はtokenの扱い、qualityの低下、supportの弱さを挙げているが、HN読者はそこへ自分の経験を重ねた。
コメントで何度も出てきたのは、生成よりレビューの重さだった。コードが速く出ても、要件を落とし、不要な抽象化を増やし、テストまで無理に通してしまうなら、結局は人間が大量の出力を読み直して頭の中のモデルを作り直す必要がある。別の読者は、Claudeはautopilotではなく限定的なcopilotとして使うならまだ十分役立つとも書いた。この差が重要だった。争点がClaudeの善し悪しそのものではなく、どんなworkflowならmodel driftに耐えられるかへ移ったからだ。
token accountingとsession limitは不満をさらに鋭くした。quotaがすぐ溶ける、effort levelが静かに下がる、長時間考えさせた末にoutput cap errorで終わる。そんな報告が並んだ。もっと深い不安は、一つのversionが悪くなったことだけではない。多くの開発者が、内部状態を自分で制御も監査もできないサービスに生産性を預けている点にある。Anthropicの最近のquality reportのあとでも、人々が気にしているのは最高点のbenchmarkではなく、同じ設定が来週も安定しているかどうかだった。
だからこのスレッドは、Claudeを終わった製品として悼む場ではなかった。HNが問うていたのは、月額制のAI coding toolを本当に信頼できる基盤として扱ってよいのかという点である。いちばん説得力があったのも、思想的な反発ではなく、現場の開発者がどれだけ監視と再確認を強いられるようになったかを比べる具体的な話だった。出典は元のブログ記事、Anthropicのquality report、そしてHNの議論である。
Related Articles
HNで注目されたのは「Claudeがバグを見つける」話だけでなく、各チームが自分の対象に合わせて作り替えるharnessの形だった。
Anthropicが出したのは単なる高性能モデルではなく、同じ基盤モデルを一般向けFableと限定向けMythosに分ける配布設計だ。価格は入力$10/出力$50、危険領域ではOpus 4.8への切り替えと30日保持も組み込まれる。
Claude Fable 5がGDPval-AAで1932点を記録し、エージェント型の実業務ベンチマークで首位に立った。Anthropic系モデルが上位4枠のうち3枠を占め、長時間タスクの評価軸がさらに重要になっている。