モデルより配管が熱い LocalLLaMAがDeepEP V2とTileKernelsに集まった理由

Original: Deepseek has released DeepEP V2 and TileKernels. View original →

Read in other languages: 한국어English
LLM Apr 24, 2026 By Insights AI (Reddit) 1 min read Source

今回はモデルよりインフラのほうが刺さった

LocalLLaMAでDeepEP V2とTileKernelsの投稿が伸びたのは、きれいなベンチ画像のせいではない。コミュニティが見ていたのは、MoEシステムの本当の詰まりやすい場所だった。expert parallel の通信、routing、GPU kernel 最適化といった配管部分をどこまで速くできるか。オープンモデル界隈では、この層の公開がそのまま実効性能に効く。

DeepEP V2 のリリースノートでは、expert parallelism をかなり大きく組み直している。high-throughput API と low-latency API を統合し、NVSHMEM からより軽い NCCL Gin backend へ切り替え、scale-up と scale-out は EP2048 まで拡大した。さらに V1 比で最大1.3倍の peak 性能、最大4倍少ない SM 使用量をうたい、experimental な 0-SM Engram、pipeline parallelism、context parallel all-gather も含まれる。

TileKernels はそのもう半分だ。TileLang ベースのこのライブラリは、MoE gating と routing、quantization、transpose、engram gating、manifold hyperconnection、さらに torch autograd wrapper までまとめている。つまり DeepSeek は通信レイヤーだけでなく、LLM インフラで何度も出てくる GPU 演算ブロックまで公開している。

  • MoE の性能ボトルネックは重みより routing と communication 側に寄ってきている
  • SM 使用量が下がると実運用での資源配分に余裕が出る
  • open infra は他チームがすぐ試し、改変し、積み上げられる点が大きい

上位コメントもその感覚をよく表していた。DeepSeekは研究所らしく動きながら、システム仕事を外に出しているという評価が集まった。これは雰囲気の話ではない。LocalLLaMAにとって DeepEP V2 と TileKernels は、より速い MoE スタックを組むための実物の部品だ。

Share: Long

Related Articles

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

LLM Hacker News 6d ago 1 min read

HNが見ていたのは「CloudflareがAIをやる」という話ではなく、14以上のproviderを束ねるinference layerがagent appの運用を本当に楽にするかだった。CloudflareはAI Gateway、Workers AI bindings、multimodal catalogを一つのplatformとして描き、コメント欄はOpenRouterとの差、pricingの正確さ、catalogの重なりを詰めた。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.