Kimi K2.6, 에이전트 스웜 300개·4,000단계로 대폭 확대…채팅 아닌 산출물로 승부
Original: Moonshot said Kimi K2.6 Agent Swarm scales to 300 sub-agents and 4,000 coordinated steps with file-first outputs View original →
트윗이 드러낸 것
Moonshot의 Kimi 계정은 이번 출시를 몇 개 숫자로 압축했다. 핵심은 300 parallel sub-agents × 4,000 steps per run (up from 100 / 1,500 in K2.5). Outputs are real files, not chat. 이다. 이어서 한 번의 run이 100개가 넘는 파일, 10만 단어 literature review, 혹은 2만 행 dataset을 만들 수 있다고 덧붙였다.
Kimi 계정은 Moonshot의 대표 모델과 agent 연구 업데이트를 실어 나르는 공식 채널이다. 그래서 이번 post도 product·benchmark 성격이 짙다. material한 지점은 “swarm”이라는 단어 자체가 아니라, scale, parallelism, artifact output을 한 문장에 넣어 실행 주장을 만들었다는 점이다.
linked K2.6 자료의 맥락
연결된 K2.6 tech blog는 트윗보다 훨씬 자세하다. 먼저 K2.6를 open-source coding 진전으로 위치시키고, 장기 실행 예시를 붙인다. 한 사례는 12시간이 넘는 실행 동안 4,000개 이상의 tool call을 사용해 Zig로 Qwen3.5-0.8B 로컬 환경을 배포·최적화했고, throughput을 약 15 tokens/sec에서 약 193 tokens/sec까지 끌어올렸다고 설명한다. 다른 사례는 8년 된 exchange-core 엔진을 13시간 동안 손보며 1,000개 이상의 tool call과 4,000줄 이상의 코드 수정을 거쳐 medium throughput을 185% 높였다고 주장한다.
같은 글은 Agent Swarm을 OpenClaw 같은 proactive agent, 그리고 연구 preview인 Claw Groups와 함께 배치한다. 이 점이 중요하다. Moonshot은 K2.6를 단순히 prompt를 넣는 모델이 아니라, 일을 쪼개고 이기종 specialist에게 넘기고 다시 구조화된 산출물로 회수하는 orchestration system으로 설명하고 있기 때문이다.
다음 관전 포인트
이제 시험대는 Moonshot 내부 예시 밖에 있다. 300-way parallelism에서의 failure recovery, 실제 품질, 그리고 file-first output 약속이 curated demo가 아닌 지저분한 enterprise workflow에서도 유지되는지 확인이 필요하다. 이 수치가 외부 사용자 환경에서도 반복된다면 K2.6는 multi-agent coding system 시장의 기준점 가운데 하나가 될 수 있다.
Sources: X source tweet · Kimi K2.6 tech blog · Kimi Agent Swarm page
Related Articles
로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.
코딩 모델 평가가 정답률에서 코드 리뷰 품질로 옮겨가고 있다는 점에 HN 관심이 모였다. FrontierCode는 PR을 실제 maintainer가 받아들일지에 초점을 둔다.
HN은 Kimi K2.6을 benchmark 표 하나보다 “open weights coding agent가 긴 작업을 버티는가”라는 질문으로 읽었다. 12시간, 13시간짜리 coding 사례와 agent swarm 주장이 관심을 끌었고, 동시에 실제 속도와 benchmark 과장 가능성도 바로 검증대에 올랐다.