LLM Reddit Mar 1, 2026 1 min read
r/LocalLLaMAの投稿(スコア180、コメント53)は、MoE向けハイブリッドruntime <code>Krasis</code>のベンチマークを共有した。主張は、GPU中心のprefillとCPU decodeの分離により、consumer環境でも長文contextの待ち時間を短縮できるという点にある。
r/LocalLLaMAの投稿(スコア180、コメント53)は、MoE向けハイブリッドruntime <code>Krasis</code>のベンチマークを共有した。主張は、GPU中心のprefillとCPU decodeの分離により、consumer環境でも長文contextの待ち時間を短縮できるという点にある。