LLM May 30, 2026 1 min read
LLM inferenceで高いのはGPUだけでなく、実験そのものだ。NVIDIAはDynoSimが23,608 requestのtraceをApple M4 MacBook Air上で2.41秒で再生し、60.1分のserving windowを約1,500倍速で模擬したと示した。
LLM inferenceで高いのはGPUだけでなく、実験そのものだ。NVIDIAはDynoSimが23,608 requestのtraceをApple M4 MacBook Air上で2.41秒で再生し、60.1分のserving windowを約1,500倍速で模擬したと示した。
r/LocalLLaMAの投稿(スコア180、コメント53)は、MoE向けハイブリッドruntime <code>Krasis</code>のベンチマークを共有した。主張は、GPU中心のprefillとCPU decodeの分離により、consumer環境でも長文contextの待ち時間を短縮できるという点にある。