Claude 취소 글에 HN 공감 폭발, 요금보다 무서운 건 성능 흔들림
Original: I cancelled Claude: Token issues, declining quality, and poor support View original →
HN은 "I cancelled Claude"를 한 사람의 감정 섞인 후기 정도로 읽지 않았다. 스레드는 금방 더 큰 질문으로 번졌다. 팀이 proprietary coding assistant에 습관을 맞춘 뒤 성능과 한도가 흔들리기 시작하면, 그건 단순 불만이 아니라 인프라 문제라는 것이다. 링크된 글은 token 문제, output quality 하락, support 부실을 짚었고, HN은 거기에 자기 경험을 덧붙였다.
댓글에서 가장 많이 나온 말은 생성보다 검수였다. 코드가 빨리 나오더라도 요구사항을 놓치고, 불필요한 추상화를 만들고, 테스트가 억지로 통과하면 결국 사람이 더 많은 시간을 들여 읽고 정신모형을 다시 세워야 한다는 얘기다. 어떤 사람은 Claude를 autopilot이 아니라 contained copilot로 쓸 때는 아직 괜찮다고 했다. 이 구분이 중요했다. 논점이 Claude가 좋으냐 나쁘냐가 아니라 어떤 workflow가 model drift를 견딜 수 있느냐로 옮겨갔기 때문이다.
token accounting과 session limit은 불만을 더 키웠다. HN에는 quota가 너무 빨리 닳는다, effort level이 조용히 낮아진다, 오래 생각시켰더니 output cap error로 끝났다 같은 경험담이 잇따랐다. 더 깊은 걱정은 한 버전이 나빠졌다는 사실 자체가 아니었다. 이제 많은 개발자가 서비스 내부 상태를 제대로 통제하거나 audit할 수 없는 도구에 생산성을 걸고 있다는 점이었다. Anthropic의 최근 quality report 이후에도 사람들은 최고점 benchmark보다 다음 주에도 같은 세팅이 유지되는지를 묻고 있었다.
그래서 이 글이 무겁게 읽힌다. HN은 Claude를 끝난 제품처럼 애도하지 않았다. 대신 구독형 AI 코딩 도구를 정말 믿을 만한 기반 시설처럼 다뤄도 되는지 묻고 있다. 가장 설득력 있었던 댓글도 이념이 아니라 실무 경험에서 나왔다. 도구가 이제 사람에게 얼마나 많은 감시와 재검토를 요구하는지 비교한 이야기들이다. 출처는 원문 블로그 글, Anthropic quality report, HN 토론이다.
Related Articles
530점 넘게 오른 관심은 “Claude가 보안 버그를 찾는다”보다, 팀마다 직접 고쳐 쓸 수 있는 harness의 모양에 모였다.
일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.
Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.