モデルより配管が熱い LocalLLaMAがDeepEP V2とTileKernelsに集まった理由

今回はモデルよりインフラのほうが刺さった

LocalLLaMAでDeepEP V2とTileKernelsの投稿が伸びたのは、きれいなベンチ画像のせいではない。コミュニティが見ていたのは、MoEシステムの本当の詰まりやすい場所だった。expert parallel の通信、routing、GPU kernel 最適化といった配管部分をどこまで速くできるか。オープンモデル界隈では、この層の公開がそのまま実効性能に効く。

DeepEP V2 のリリースノートでは、expert parallelism をかなり大きく組み直している。high-throughput API と low-latency API を統合し、NVSHMEM からより軽い NCCL Gin backend へ切り替え、scale-up と scale-out は EP2048 まで拡大した。さらに V1 比で最大1.3倍の peak 性能、最大4倍少ない SM 使用量をうたい、experimental な 0-SM Engram、pipeline parallelism、context parallel all-gather も含まれる。

TileKernels はそのもう半分だ。TileLang ベースのこのライブラリは、MoE gating と routing、quantization、transpose、engram gating、manifold hyperconnection、さらに torch autograd wrapper までまとめている。つまり DeepSeek は通信レイヤーだけでなく、LLM インフラで何度も出てくる GPU 演算ブロックまで公開している。

MoE の性能ボトルネックは重みより routing と communication 側に寄ってきている
SM 使用量が下がると実運用での資源配分に余裕が出る
open infra は他チームがすぐ試し、改変し、積み上げられる点が大きい

上位コメントもその感覚をよく表していた。DeepSeekは研究所らしく動きながら、システム仕事を外に出しているという評価が集まった。これは雰囲気の話ではない。LocalLLaMAにとって DeepEP V2 と TileKernels は、より速い MoE スタックを組むための実物の部品だ。

LLM Reddit Apr 16, 2026 1 min read

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

#local-llm #llama-cpp #moe

LLM 5d ago 1 min read

MM-WebAgent、画像・コード・layoutを同じ意図で束ねる

MM-WebAgentは、AI製webpageが部品単位では良くても全体で崩れる問題を狙う。階層型planning、self-reflection、benchmark、code/data公開により、code-onlyでは見えないmultimodal coherenceを測れるようにした。

#web-agents #multimodal #aigc

LLM Hacker News 6d ago 1 min read

Cloudflareのagent inference layer、HNは配管として見た

HNが見ていたのは「CloudflareがAIをやる」という話ではなく、14以上のproviderを束ねるinference layerがagent appの運用を本当に楽にするかだった。CloudflareはAI Gateway、Workers AI bindings、multimodal catalogを一つのplatformとして描き、コメント欄はOpenRouterとの差、pricingの正確さ、catalogの重なりを詰めた。

#cloudflare #agents #inference

モデルより配管が熱い LocalLLaMAがDeepEP V2とTileKernelsに集まった理由

今回はモデルよりインフラのほうが刺さった

Related Articles

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

MM-WebAgent、画像・コード・layoutを同じ意図で束ねる

Cloudflareのagent inference layer、HNは配管として見た

Comments (0)

Leave a Comment