r/LocalLLaMAのユーザーが、製造終了したIntel Optane PMem(768GB)を中古市場で安価に入手し、Kimi K2.5(1兆パラメータ)をローカルで毎秒4トークン以上で動作させることに成功した。
#kimi
RSS Feed中国AIスタートアップのMoonshot AIがMeituan主導で$2Bを調達し、時価総額$20Bを達成した。過去6か月の累計調達額$3.9Bは中国LLMスタートアップ史上最大規模となった。
重要なのは、Moonshotが“agent swarm”をdemo wordではなく実行スケールの数字で押し出していることだ。Kimiのpostは、1回のrunで300 sub-agentと4,000 stepを回し、chatではなく100超のfilesを返せるとした。
HNはKimi K2.6を、benchmark表よりも「open-weight coding agentが長い実務を耐えられるか」という問いで読んだ。12時間、13時間のcoding事例が注目を集める一方、速度、provider品質、benchmarkの現実味もすぐに問われた。
r/LocalLLaMAが反応したのはleaderboardの順位だけではなく、Opus 4.7のscoreと実使用感のズレ、Kimi K2.6のcoding agent適性だった。
CloudflareはWorkers AI上のKimi K2.5をagent workload向けに3x fasterにしたと説明した。p90 time per tokenは約100 msから20-30 msへ下がり、peak時のinput token cache hit ratioは60%から80%へ上がった。
Kimi TeamのAttnRes論文は、PreNorm residualが過去のlayer出力を固定重みで足し続けることで、深いstackで情報を薄めると主張する。解決策として、layer間のselective aggregationとコストを抑えるBlock AttnResが提示されている。