LLM Reddit Apr 8, 2026 1 min read
r/LocalLLaMA의 한 self-post가 2x H200 위에서 GPT-OSS-120B를 굴리며 하루 10억 토큰 이상을 처리하는 내부 serving stack을 공개했다. vLLM, LiteLLM, mxfp4, queueing 병목까지 포함한 구체적 운영 수치가 커뮤니티의 관심을 끌고 있다.
r/LocalLLaMA의 한 self-post가 2x H200 위에서 GPT-OSS-120B를 굴리며 하루 10억 토큰 이상을 처리하는 내부 serving stack을 공개했다. vLLM, LiteLLM, mxfp4, queueing 병목까지 포함한 구체적 운영 수치가 커뮤니티의 관심을 끌고 있다.
2026년 3월 26일 NVIDIA의 `gpt-oss-puzzle-88B` 모델 카드를 링크한 r/LocalLLaMA 글은 크롤링 시점 기준 284 points와 105 comments를 기록했다. NVIDIA는 이 88B MoE 모델이 Puzzle post-training NAS 파이프라인으로 파라미터와 KV-cache 부담을 줄이면서도 reasoning 정확도를 부모 모델 수준으로 유지하거나 소폭 높인다고 설명한다.