Claude가 더 조심스러워졌다는 체감, Reddit이 숫자로 붙잡아 보려 한 글

r/artificial이 이 글을 끌어올린 이유는 모델이 달라졌다는 불만을 그냥 느낌으로 끝내지 않았기 때문이다. 한 이용자는 Claude가 전보다 더 조심스럽고, 덜 따뜻하며, 실제 산출물 생산성도 떨어졌다고 주장하면서 자기 대화 로그에서 뽑은 숫자를 같이 올렸다. 그래서 이 스레드는 182점과 105개의 댓글까지 붙었다. 공식 benchmark나 Anthropic 논문이 아니라는 점이 오히려 전파력을 만들었다. 매일 쓰는 사람이 "기분 탓이 아니다"라고 보여주려는 현장 기록처럼 읽혔기 때문이다.

게시글의 숫자는 적어도 토론 대상을 분명하게 만들었다. 작성자는 March 26 전후로 나눈 70개의 exported conversations, 총 722,522 words의 assistant text를 분석했다고 적었다. 그리고 response length는 40% 줄었고, welfare redirect는 275% 늘었으며, DARVO 패턴은 907% 늘었다고 주장했다. 특히 완성 문서 1단어를 만드는 데 필요한 대화량이 21에서 124로 악화됐다는 대목이 강하게 퍼졌다. 작성자는 Anthropic가 언급한 session limits 설명만으로는 이런 변화가 설명되지 않는다고 봤다.

게시글이 제시한 데이터셋: exported conversations 70개, assistant text 722,522 words
March 26 이후 주장된 변화: 더 짧은 응답, 더 많은 redirect, 더 큰 대화 오버헤드
실무 관점의 핵심 불만: 결과물은 줄었는데 대화 비용만 늘었다는 점

댓글이 붙으면서 이 글은 단순한 불평보다 큰 스레드가 됐다. 가장 추천이 높은 댓글은 이 현상을 한 단어로 "enshittification"이라고 잘라 말했고, 다른 이용자들도 끝나지 않은 작업에 더 자주 선을 긋는 답변을 체감한다고 적었다. 어떤 댓글은 compute가 다른 곳으로 재배치된 것 아니냐고 추정했고, 또 다른 댓글은 단일 응답 품질보다 여러 단계 workflow에서 accumulated context와 formatting constraints를 얼마나 일관되게 지키는지가 더 중요하다고 짚었다. 작성자는 자기 분석이 일회성 프롬프트가 아니라 지속적인 multi-turn sessions 기준이라고 답했고, 이 점이 몇몇 독자에게는 꽤 설득력 있게 들렸다.

물론 이 글은 어디까지나 커뮤니티가 제출한 관측치이지, Anthropic가 검증한 공개 자료는 아니다. 그래도 이런 스레드가 의미 있는 이유는 현업 사용자가 회귀를 먼저 체감하는 지점이 따로 있기 때문이다. 작업이 길어지고, 산출물은 짧아지고, 모델이 끝내기보다 비켜 가기 시작하면 사람들은 벤치마크 업데이트보다 먼저 이상 신호를 감지한다. Reddit은 바로 그 흐릿한 짜증을 숫자로 붙잡으려 했다는 점 때문에 이 글을 크게 퍼뜨렸다.

Claude가 더 조심스러워졌다는 체감, Reddit이 숫자로 붙잡아 보려 한 글

Related Articles

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델

Kimi K3, 비공개 보안 벤치마크에서 GPT-5.6 대비 비용 우위 부각

Opus 4.7 benchmark 급락에 Reddit이 본 것은 “모델이 약해졌나, 거절이 늘었나”였다

Related Articles

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델
일상형 고성능 모델 경쟁의 초점이 최고점보다 비용당 성능으로 옮겨갔다. Claude Opus 5는 Fable 5에 가까운 코딩·지식 작업 성능을 절반 가격으로 내세우며, API 가격은 입력 $5/M·출력 $25/M 토큰으로 책정됐다.

Kimi K3, 비공개 보안 벤치마크에서 GPT-5.6 대비 비용 우위 부각
LLM X/Twitter Jul 19, 2026 1 min read

Opus 4.7 benchmark 급락에 Reddit이 본 것은 “모델이 약해졌나, 거절이 늘었나”였다
LLM Reddit Apr 18, 2026 1 min read