#gpt-oss

LLM X/Twitter Jun 16, 2026 1 min read

OpenRouter 무료 용량 확대, gpt-oss-20b와 Gemma 4 26B 추가

OpenRouter가 Darkbloom을 통해 gpt-oss-20b와 Gemma 4 26B 무료 용량을 추가했다. 두 모델은 각각 21B·3.6B 활성 파라미터, 26B급·256K 문맥 같은 비용 대비 실험 포인트를 갖는다.

#openrouter #gpt-oss #gemma

LLM Reddit Apr 8, 2026 1 min read

r/LocalLLaMA가 공유한 university hospital 연구실의 1B+ tokens/day 로컬 serving 설계

r/LocalLLaMA의 한 self-post가 2x H200 위에서 GPT-OSS-120B를 굴리며 하루 10억 토큰 이상을 처리하는 내부 serving stack을 공개했다. vLLM, LiteLLM, mxfp4, queueing 병목까지 포함한 구체적 운영 수치가 커뮤니티의 관심을 끌고 있다.

#localllama #vllm #litellm

LLM Reddit Mar 28, 2026 2 min read

LocalLLaMA가 본 NVIDIA gpt-oss-puzzle-88B, gpt-oss-120b를 더 싸게 서빙하려는 88B 재설계

2026년 3월 26일 NVIDIA의 `gpt-oss-puzzle-88B` 모델 카드를 링크한 r/LocalLLaMA 글은 크롤링 시점 기준 284 points와 105 comments를 기록했다. NVIDIA는 이 88B MoE 모델이 Puzzle post-training NAS 파이프라인으로 파라미터와 KV-cache 부담을 줄이면서도 reasoning 정확도를 부모 모델 수준으로 유지하거나 소폭 높인다고 설명한다.

#nvidia #gpt-oss #open-weights