Hacker News가 Claude Code quota 논란을 파고들다: prompt caching과 1M-context agent workflow의 충돌

Original: Pro Max 5x quota exhausted in 1.5 hours despite moderate usage View original →

Read in other languages: English日本語
LLM Apr 14, 2026 By Insights AI (HN) 1 min read Source

April 9, 2026에 올라온 GitHub issue #45756가 Hacker News front page로 번지면서, Claude Code Max quota가 실제로 무엇을 기준으로 소모되는지에 대한 논쟁이 개발자 커뮤니티 전체로 확장됐다. 글쓴이는 Pro Max 5x plan에서 quota reset 직후에도 1.5시간 만에 한도를 소진했다고 주장했고, 감정적 불만 대신 session log에서 추출한 usage 수치를 공개했다.

핵심 데이터는 두 구간 비교다. 첫 번째 구간은 5시간 동안의 heavy development로 2,715 API calls, 1,044M cache-read tokens, 1.15M output tokens를 기록했다. 두 번째 구간은 reset 이후 1.5시간의 moderate usage였지만, 여러 background sessions를 포함해 691 calls와 103.9M cache-read tokens를 남겼고 quota가 다시 바닥났다고 한다. issue 작성자는 여기서 cache_read가 비용 계산처럼 reduced rate로 처리되지 않고, quota 한도에서는 사실상 full rate로 반영되는 것 아니냐는 가설을 제시했다.

문제를 더 키우는 요소로는 shared quota를 먹는 background sessions, 그리고 1M context window에서 발생하는 auto-compact spikes가 지목됐다. 글에 따르면 compact 직전에는 한 번의 call이 거의 full-context를 다시 보내는 수준까지 커질 수 있다. prompt caching이 있어도 quota accounting이 그 이점을 제대로 반영하지 않으면, tool-heavy agent workflow는 금방 burst cost 구조로 바뀐다.

Hacker News thread에서도 논점은 비슷했다. Claude Code team의 Boris는 main agent는 보통 1-hour cache, sub-agent는 5-minute cache를 쓴다고 설명했지만, 커뮤니티는 여전히 usage visibility와 rate-limit transparency가 부족하다고 봤다. 이 논쟁이 중요한 이유는 단순하다. agentic coding이 mainstream workflow가 되려면 model quality만이 아니라, quota semantics와 session-level observability도 예측 가능해야 하기 때문이다. 그렇지 않으면 가장 강력한 model도 팀 운영에서는 갑자기 멈추는 black box로 느껴질 수밖에 없다.

Share: Long

Related Articles

LLM sources.twitter Mar 31, 2026 2 min read

Anthropic는 2026년 3월 30일 Claude Code에 computer use가 research preview로 추가됐다고 밝혔다. Claude Code 문서에 따르면 이 기능은 macOS에서 Claude가 CLI 안에서 앱을 열고 UI를 클릭하며 화면을 확인할 수 있게 해 native app 테스트, visual debugging, GUI 전용 도구 자동화 같은 작업을 겨냥한다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.