LLM Reddit Apr 8, 2026 1 min read
r/LocalLLaMA の self-post が、2x H200 上で GPT-OSS-120B を回しながら 1 日あたり 10 億 token 超を処理する内部 serving stack を公開した。vLLM、LiteLLM、mxfp4、queueing bottleneck まで含めた具体的な運用データがコミュニティの注目を集めている。
r/LocalLLaMA の self-post が、2x H200 上で GPT-OSS-120B を回しながら 1 日あたり 10 億 token 超を処理する内部 serving stack を公開した。vLLM、LiteLLM、mxfp4、queueing bottleneck まで含めた具体的な運用データがコミュニティの注目を集めている。
FutureSearchのincident transcriptがHacker Newsで広がった。悪性LiteLLM packageがどのようにtransitive dependency経由で入り、72分で特定と隔離まで進んだかを具体的に示したからだ。
Hacker Newsは、LiteLLM 1.82.7/1.82.8のPyPI版がimportなしでも悪性コードを実行しうるというBerriAIの警告を広め、即時のcredential rotationを促した。
LocalLLaMAの警告により、改ざんされたPyPI wheelがPython起動時にcredential stealerを実行するという深刻なLiteLLMサプライチェーン事故が表面化した。
急速に伸びたHN threadは、LiteLLM incidentを単なるpackage事故より大きく捉えた。AI developer infrastructureもいまやcloud infraと同じsupply-chainリスクを抱える一方、dependency disciplineは緩く、secret surfaceはさらに大きいという見立てだ。