Skip to content
腐食中

モデルより配管が熱い LocalLLaMAがDeepEP V2とTileKernelsに集まった理由

Original: Deepseek has released DeepEP V2 and TileKernels. View original →

Read in other languages: 한국어English
LLM Apr 24, 2026 By Insights AI (Reddit) 1 min read 14 views Source

今回はモデルよりインフラのほうが刺さった

LocalLLaMAでDeepEP V2とTileKernelsの投稿が伸びたのは、きれいなベンチ画像のせいではない。コミュニティが見ていたのは、MoEシステムの本当の詰まりやすい場所だった。expert parallel の通信、routing、GPU kernel 最適化といった配管部分をどこまで速くできるか。オープンモデル界隈では、この層の公開がそのまま実効性能に効く。

DeepEP V2 のリリースノートでは、expert parallelism をかなり大きく組み直している。high-throughput API と low-latency API を統合し、NVSHMEM からより軽い NCCL Gin backend へ切り替え、scale-up と scale-out は EP2048 まで拡大した。さらに V1 比で最大1.3倍の peak 性能、最大4倍少ない SM 使用量をうたい、experimental な 0-SM Engram、pipeline parallelism、context parallel all-gather も含まれる。

TileKernels はそのもう半分だ。TileLang ベースのこのライブラリは、MoE gating と routing、quantization、transpose、engram gating、manifold hyperconnection、さらに torch autograd wrapper までまとめている。つまり DeepSeek は通信レイヤーだけでなく、LLM インフラで何度も出てくる GPU 演算ブロックまで公開している。

  • MoE の性能ボトルネックは重みより routing と communication 側に寄ってきている
  • SM 使用量が下がると実運用での資源配分に余裕が出る
  • open infra は他チームがすぐ試し、改変し、積み上げられる点が大きい

上位コメントもその感覚をよく表していた。DeepSeekは研究所らしく動きながら、システム仕事を外に出しているという評価が集まった。これは雰囲気の話ではない。LocalLLaMAにとって DeepEP V2 と TileKernels は、より速い MoE スタックを組むための実物の部品だ。

Share: Long

Related Articles