#llm-serving

LLM May 30, 2026 1 min read

DynoSim、LLM serving実験を1,500倍速いsimulation loopへ

LLM inferenceで高いのはGPUだけでなく、実験そのものだ。NVIDIAはDynoSimが23,608 requestのtraceをApple M4 MacBook Air上で2.41秒で再生し、60.1分のserving windowを約1,500倍速で模擬したと示した。

#nvidia #dynosim #llm-serving

LLM Reddit Mar 1, 2026 1 min read

r/LocalLLaMA検証: <code>Krasis</code>が単一RTX 5080で80B MoEの3,324 tok/s prefillを報告

r/LocalLLaMAの投稿（スコア180、コメント53）は、MoE向けハイブリッドruntime <code>Krasis</code>のベンチマークを共有した。主張は、GPU中心のprefillとCPU decodeの分離により、consumer環境でも長文contextの待ち時間を短縮できるという点にある。

#moe #inference-runtime #llm-serving