LLM Reddit Apr 8, 2026 1 min read
r/LocalLLaMA の self-post が、2x H200 上で GPT-OSS-120B を回しながら 1 日あたり 10 億 token 超を処理する内部 serving stack を公開した。vLLM、LiteLLM、mxfp4、queueing bottleneck まで含めた具体的な運用データがコミュニティの注目を集めている。
r/LocalLLaMA の self-post が、2x H200 上で GPT-OSS-120B を回しながら 1 日あたり 10 億 token 超を処理する内部 serving stack を公開した。vLLM、LiteLLM、mxfp4、queueing bottleneck まで含めた具体的な運用データがコミュニティの注目を集めている。
2026年3月26日、NVIDIAの`gpt-oss-puzzle-88B`モデルカードを扱ったr/LocalLLaMA投稿は、クロール時点で284 pointsと105 commentsを集めた。NVIDIAはこの88B MoEモデルがPuzzle post-training NASを用いてparameter数とKV-cache負荷を削減しつつ、reasoning accuracyを親モデル並みかそれ以上に保つと説明している。