モデルより配管が熱い LocalLLaMAがDeepEP V2とTileKernelsに集まった理由
Original: Deepseek has released DeepEP V2 and TileKernels. View original →
今回はモデルよりインフラのほうが刺さった
LocalLLaMAでDeepEP V2とTileKernelsの投稿が伸びたのは、きれいなベンチ画像のせいではない。コミュニティが見ていたのは、MoEシステムの本当の詰まりやすい場所だった。expert parallel の通信、routing、GPU kernel 最適化といった配管部分をどこまで速くできるか。オープンモデル界隈では、この層の公開がそのまま実効性能に効く。
DeepEP V2 のリリースノートでは、expert parallelism をかなり大きく組み直している。high-throughput API と low-latency API を統合し、NVSHMEM からより軽い NCCL Gin backend へ切り替え、scale-up と scale-out は EP2048 まで拡大した。さらに V1 比で最大1.3倍の peak 性能、最大4倍少ない SM 使用量をうたい、experimental な 0-SM Engram、pipeline parallelism、context parallel all-gather も含まれる。
TileKernels はそのもう半分だ。TileLang ベースのこのライブラリは、MoE gating と routing、quantization、transpose、engram gating、manifold hyperconnection、さらに torch autograd wrapper までまとめている。つまり DeepSeek は通信レイヤーだけでなく、LLM インフラで何度も出てくる GPU 演算ブロックまで公開している。
- MoE の性能ボトルネックは重みより routing と communication 側に寄ってきている
- SM 使用量が下がると実運用での資源配分に余裕が出る
- open infra は他チームがすぐ試し、改変し、積み上げられる点が大きい
上位コメントもその感覚をよく表していた。DeepSeekは研究所らしく動きながら、システム仕事を外に出しているという評価が集まった。これは雰囲気の話ではない。LocalLLaMAにとって DeepEP V2 と TileKernels は、より速い MoE スタックを組むための実物の部品だ。
Related Articles
LocalLLaMAで話題になったのは新しいcoding modelそのものだけでなく、Cohereが正式公開前のweightsを先にコミュニティへ渡した点だった。
HNがDeepSeek V4に飛びついた理由はきれいな発表ページではなかった。表のリンクがAPI docsで、実際の重みとbaseモデルがすでにHugging Faceに並んでいたことが一気に火を付けた。
DeepSeekはV4-Pro APIの75%割引を恒久価格に切り替え、LLM APIの価格競争を一段押し下げた。投稿画像では出力単価が100万トークンあたり$3.48から$0.87に下がる。