モデルより配管が熱い LocalLLaMAがDeepEP V2とTileKernelsに集まった理由
Original: Deepseek has released DeepEP V2 and TileKernels. View original →
今回はモデルよりインフラのほうが刺さった
LocalLLaMAでDeepEP V2とTileKernelsの投稿が伸びたのは、きれいなベンチ画像のせいではない。コミュニティが見ていたのは、MoEシステムの本当の詰まりやすい場所だった。expert parallel の通信、routing、GPU kernel 最適化といった配管部分をどこまで速くできるか。オープンモデル界隈では、この層の公開がそのまま実効性能に効く。
DeepEP V2 のリリースノートでは、expert parallelism をかなり大きく組み直している。high-throughput API と low-latency API を統合し、NVSHMEM からより軽い NCCL Gin backend へ切り替え、scale-up と scale-out は EP2048 まで拡大した。さらに V1 比で最大1.3倍の peak 性能、最大4倍少ない SM 使用量をうたい、experimental な 0-SM Engram、pipeline parallelism、context parallel all-gather も含まれる。
TileKernels はそのもう半分だ。TileLang ベースのこのライブラリは、MoE gating と routing、quantization、transpose、engram gating、manifold hyperconnection、さらに torch autograd wrapper までまとめている。つまり DeepSeek は通信レイヤーだけでなく、LLM インフラで何度も出てくる GPU 演算ブロックまで公開している。
- MoE の性能ボトルネックは重みより routing と communication 側に寄ってきている
- SM 使用量が下がると実運用での資源配分に余裕が出る
- open infra は他チームがすぐ試し、改変し、積み上げられる点が大きい
上位コメントもその感覚をよく表していた。DeepSeekは研究所らしく動きながら、システム仕事を外に出しているという評価が集まった。これは雰囲気の話ではない。LocalLLaMAにとって DeepEP V2 と TileKernels は、より速い MoE スタックを組むための実物の部品だ。
Related Articles
LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。
MM-WebAgentは、AI製webpageが部品単位では良くても全体で崩れる問題を狙う。階層型planning、self-reflection、benchmark、code/data公開により、code-onlyでは見えないmultimodal coherenceを測れるようにした。
HNが見ていたのは「CloudflareがAIをやる」という話ではなく、14以上のproviderを束ねるinference layerがagent appの運用を本当に楽にするかだった。CloudflareはAI Gateway、Workers AI bindings、multimodal catalogを一つのplatformとして描き、コメント欄はOpenRouterとの差、pricingの正確さ、catalogの重なりを詰めた。
Comments (0)
No comments yet. Be the first to comment!