Claude 4.7 tokenizer 논쟁, HN은 “같은 가격” 뒤의 token burn을 봤다

HN thread가 달아오른 이유는 Claude 4.7의 benchmark가 아니라 tokenizer였다. 원문은 Anthropic의 migration guide가 새 tokenizer를 대략 1.0-1.35x token 범위로 설명했지만, 실제 Claude Code에 가까운 자료에서는 더 높은 비율이 나올 수 있다고 측정했다. 특히 technical docs, CLAUDE.md, prompts, diffs, terminal output처럼 coding agent가 자주 먹는 입력이 관심을 끌었다.

핵심은 sticker price가 그대로여도 token accounting이 달라지면 quota와 cache cost, rate limit 체감이 바뀐다는 점이다. 원문은 Anthropic의 count_tokens endpoint를 써서 같은 text를 4.6과 4.7에 넣고 input token 차이를 비교했다. 일부 sample에서는 4.7이 더 많은 token을 썼고, 작성자는 그 비용이 model quality나 compression benefit으로 상쇄되는지 따져야 한다고 봤다.

댓글의 반응은 한 방향으로만 흐르지 않았다. 어떤 사용자는 모델 성능과 비용이 log scale frontier 위에 있고, 최신 Opus가 단순한 가격 인상이 아니라 더 비싼 지점의 선택일 수 있다고 봤다. 다른 댓글은 professional developer에게 token 비용보다 AI output을 검토하고 방향을 잡는 human time이 훨씬 비싸다고 반박했다. 또 다른 쪽은 더 나은 모델을 항상 쓰는 대신, 충분한 작업에는 작은 모델과 local model을 섞는 흐름이 커질 것이라고 봤다.

HN이 던진 실용적 결론은 간단하다. coding agent의 비용은 monthly plan 숫자만으로 읽을 수 없다. tokenizer, context compaction, cache behavior, model routing, review time이 모두 비용이다. Claude 4.7이 더 좋은 결과를 낸다면 추가 token은 납득될 수 있다. 하지만 팀이 budget과 rate limit을 관리하려면, benchmark와 함께 per-task token burn을 직접 재야 한다.

이 논쟁은 subscription buyer에게도 바로 연결된다. Max plan이나 Copilot multiplier 같은 숫자는 정책 표면이고, 실제 workflow에서는 repository context, retained memory, repeated compaction, cached prefix가 누적된다. 그래서 좋은 비교는 model card가 아니라 같은 task를 여러 model로 돌린 뒤 token, latency, 수정 횟수, 최종 diff 품질을 함께 보는 방식에 가깝다.

Claude 4.7 tokenizer 논쟁, HN은 “같은 가격” 뒤의 token burn을 봤다

Related Articles

Claude 30만 대화 분석, 언어와 모델별 가치 성향 차이를 수치화한 Anthropic 연구

Hacker News, Claude Opus 4.6·Sonnet 4.6의 1M context 표준 요금 전환에 주목

HN: Anthropic, Opus 4.6·Sonnet 4.6에 1M context를 기본 가격으로 확대

Related Articles

Claude 30만 대화 분석, 언어와 모델별 가치 성향 차이를 수치화한 Anthropic 연구

Hacker News, Claude Opus 4.6·Sonnet 4.6의 1M context 표준 요금 전환에 주목
LLM Hacker News Mar 14, 2026 2 min read

HN: Anthropic, Opus 4.6·Sonnet 4.6에 1M context를 기본 가격으로 확대
LLM Hacker News Mar 15, 2026 1 min read