단종된 Intel Optane 영구 메모리를 중고 시장에서 구입해 768GB RAM 시스템을 구성하고, Kimi K2.5 1조 파라미터 모델을 로컬에서 초당 4토큰 이상으로 실행한 사례가 공개됐다.
#kimi
RSS Feed중국 AI 스타트업 Moonshot AI가 Meituan 주도로 $2B를 조달해 기업가치 $20B을 달성했다. 6개월 누적 조달액 $3.9B으로 중국 LLM 스타트업 사상 최대 투자 기록이다.
중요한 점은 Moonshot이 “agent swarm”을 데모 문구가 아니라 실행 수치로 밀고 있다는 데 있다. Kimi 포스트는 한 번의 run에서 300개 sub-agent와 4,000단계를 조정하고 채팅이 아닌 100개 이상의 파일을 돌려준다고 적었다.
HN은 Kimi K2.6을 benchmark 표 하나보다 “open weights coding agent가 긴 작업을 버티는가”라는 질문으로 읽었다. 12시간, 13시간짜리 coding 사례와 agent swarm 주장이 관심을 끌었고, 동시에 실제 속도와 benchmark 과장 가능성도 바로 검증대에 올랐다.
r/LocalLLaMA가 이 글에 반응한 이유는 leaderboard 숫자보다, Opus 4.7의 체감 악화와 Kimi K2.6의 실제 coding agent 운용 가능성이 충돌했기 때문이다.
Cloudflare가 Workers AI에서 Kimi K2.5를 3x faster로 만들었다고 밝혔다. p90 time per token은 약 100 ms에서 20-30 ms로 내려갔고, prompt cache hit ratio는 peak 기준 60%에서 80%로 올랐다.
Kimi Team의 AttnRes 논문은 PreNorm residual이 모든 이전 layer 출력을 고정 가중치로 더하면서 깊은 stack에서 정보 희석을 만든다고 주장한다. 해결책으로 layer 간 selective aggregation과 메모리 비용을 줄인 Block AttnRes를 제시한다.
한 개발자가 중국 Moonshot AI의 Kimi K2.5와 Anthropic의 Claude Opus 4.5를 실제 코딩 작업으로 비교했다. 복잡한 작업에서는 Opus가 우위를 보였지만, Kimi K2.5는 중급 난이도 작업에서 비용 대비 충분한 성능을 입증했다.