HN에서 제기된 Anthropic Cache TTL 회귀, Claude Code 비용과 quota 소모 증가 논란

Original: Anthropic downgraded cache TTL on March 6th View original →

Read in other languages: English日本語
LLM Apr 12, 2026 By Insights AI (HN) 1 min read Source

4월 12일 Hacker News에서는 GitHub 이슈 #46829를 중심으로 Claude Code의 prompt cache 동작이 2026년 3월 초에 크게 바뀐 것 아니냐는 논의가 확산됐다. 핵심 주장은 로컬 Claude Code 버전이 아니라 Anthropic의 서버 측 기본 cache TTL이 1시간에서 5분으로 사실상 되돌아간 것처럼 보이며, 그 결과 긴 context를 반복해서 쓰는 세션의 비용과 quota 소모가 커졌다는 점이다.

이슈 작성자는 2026년 1월 11일부터 4월 11일까지 두 대의 머신에서 수집한 119,866건의 API 호출을 분석했다고 설명했다. Claude Code 세션 JSONL에는 ephemeral_5m_input_tokensephemeral_1h_input_tokens가 따로 기록되기 때문에, 작성자는 이 값을 통해 실제 TTL tier 변화를 추적할 수 있었다고 본다. 공개된 표에 따르면 2월 1일부터 3월 5일까지는 사실상 1시간 cache write가 유지됐고, 3월 6일에 혼합 구간이 시작됐으며, 3월 8일부터는 5분 cache가 우세해졌다고 주장한다.

이 논의가 중요한 이유는 단순한 불만 제기가 아니라 운영 비용 문제로 이어지기 때문이다. 보고서는 cache creation 비용이 20%에서 32% 정도 증가했고, 기존에는 한도에 걸리지 않던 subscription 사용자도 quota 소모가 눈에 띄게 빨라졌다고 추정한다. 또 이 현상이 Claude Code quota exhaustion 이슈 #45756과 연결될 가능성도 제기한다. 물론 이것이 Anthropic의 의도된 정책 변경이라고 확정된 것은 아니며, 공식 changelog나 공지가 없는 상태에서 사용자 측 telemetry로 역추적한 분석이라는 점은 분명히 구분해야 한다.

그럼에도 이 스레드는 개발자에게 꽤 실용적이다. 긴 coding 세션을 자주 돌리는 팀이라면 로컬 세션 JSONL을 확인해 5분 cache write와 1시간 cache write의 비중이 2026년 3월 6일 전후로 바뀌었는지 먼저 살펴볼 필요가 있다. 만약 회귀가 사실이라면 model 선택보다도 작업을 더 촘촘한 시간 창에 묶거나, 불필요한 context churn을 줄이는 쪽이 비용 제어에 더 직접적일 수 있다. 이후 Anthropic이 기본값을 설명하더라도, 이번 사례는 개발자 로그만으로 플랫폼 economics 변화를 추적할 수 있다는 점을 잘 보여준다.

출처: Hacker News 토론, GitHub issue #46829, 관련 quota issue #45756.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.