LLM Reddit Apr 8, 2026 1 min read
r/LocalLLaMA의 한 self-post가 2x H200 위에서 GPT-OSS-120B를 굴리며 하루 10억 토큰 이상을 처리하는 내부 serving stack을 공개했다. vLLM, LiteLLM, mxfp4, queueing 병목까지 포함한 구체적 운영 수치가 커뮤니티의 관심을 끌고 있다.
r/LocalLLaMA의 한 self-post가 2x H200 위에서 GPT-OSS-120B를 굴리며 하루 10억 토큰 이상을 처리하는 내부 serving stack을 공개했다. vLLM, LiteLLM, mxfp4, queueing 병목까지 포함한 구체적 운영 수치가 커뮤니티의 관심을 끌고 있다.
FutureSearch의 incident transcript가 Hacker News에서 빠르게 확산됐다. 악성 LiteLLM 패키지가 어떻게 transitive dependency를 통해 유입되고 72분 안에 식별·격리됐는지를 구체적으로 보여줬기 때문이다.
Hacker News는 LiteLLM 1.82.7·1.82.8 PyPI 릴리스가 import 없이도 악성 코드를 실행할 수 있다는 BerriAI 경고를 확산시키며 즉각적인 credential rotation 필요성을 부각했다.
LocalLLaMA 경고는 변조된 PyPI wheel이 Python 시작 시 credential stealer를 실행한다는 보고와 함께 중대한 LiteLLM 공급망 사고를 수면 위로 끌어올렸다.
빠르게 확산된 HN thread는 LiteLLM incident를 단순 package 사고보다 크게 해석했다. AI developer infrastructure도 이제 cloud infra와 같은 supply-chain 리스크를 안지만, dependency discipline은 더 느슨하고 secret surface는 더 넓다는 지적이다.