HN에서 반응이 컸던 이유는 막연한 사용량 불안을 숫자로 바꿨기 때문이다. 익명 제출 541건을 모은 Tokenomics는 같은 요청이 Opus 4.7에서 평균 466 request token으로 계산되어 Opus 4.6의 349개보다 약 38.1% 늘었다고 보여줬고, 댓글은 이 수치가 실제 한도 소진 경험과 어떻게 맞물리는지 따졌다.
#tokenizer
RSS FeedHN이 주목한 건 Claude 4.7의 성능표가 아니라, 같은 prompt가 더 많은 token으로 계산될 때 developer workflow의 실제 비용이 어떻게 바뀌느냐였다. 원문은 Anthropic의 1.0-1.35x 안내보다 일부 technical docs에서 높은 ratio를 측정했고, 댓글은 token price보다 task value와 human review 시간이 더 중요하다는 반론까지 붙었다.
r/MachineLearning에 올라온 Dante-2B 진행 보고는 Italian 형태와 token 효율을 위해 tokenizer부터 다시 설계한 2.1B bilingual LLM의 1단계 학습 결과를 공유한다.
LocalLLaMA의 고득점 게시물은 llama.cpp PR #21534 merge 이후 Gemma 4의 current master support가 사실상 안정권에 들어섰다고 봤다. 다만 핵심은 fix 자체보다 tokenizer correctness, chat template, memory flag, 그리고 CUDA 13.2 회피 같은 운영 조건이었다.
r/MachineLearning에서 주목한 Dante-2B는 2×H200 위에서 scratch부터 훈련 중인 2.1B 규모의 Italian/English dense model이다. 이 프로젝트는 Italian에 맞춘 tokenizer 효율, 300B token corpus, 그리고 phase 2 이후 weights·tokenizer·pipeline 전체를 open release하겠다는 계획을 핵심으로 내세운다.