2026년 3월 26일 NVIDIA의 `gpt-oss-puzzle-88B` 모델 카드를 링크한 r/LocalLLaMA 글은 크롤링 시점 기준 284 points와 105 comments를 기록했다. NVIDIA는 이 88B MoE 모델이 Puzzle post-training NAS 파이프라인으로 파라미터와 KV-cache 부담을 줄이면서도 reasoning 정확도를 부모 모델 수준으로 유지하거나 소폭 높인다고 설명한다.
#open-weights
RSS FeedCohere는 2026년 3월 26일 Transcribe를 open-source speech recognition model로 발표했다. Cohere에 따르면 이 2B Conformer 기반 시스템은 14개 언어를 지원하고, Hugging Face Open ASR Leaderboard에서 평균 WER 5.42로 1위를 기록했으며, Apache 2.0 license로 배포되고, download·API·Model Vault 경로를 모두 제공한다.
LocalLLaMA의 높은 반응은 분명했다. Mistral이 낮은 latency, multilingual 지원, open weights를 함께 내놓으며 여전히 닫혀 있던 speech layer에 실전형 선택지를 제시했기 때문이다.
r/LocalLLaMA에서는 NVIDIA가 향후 5년간 open-weight AI model에 $26 billion을 투입할 수 있다는 보도가 빠르게 확산됐지만, 핵심 논의는 숫자보다 전략에 있었다. March 2026에 공개된 Nemotron 3 Super는 NVIDIA가 open model, tooling, Blackwell 최적화 deployment를 하나의 묶음으로 밀고 있음을 보여주는 가장 분명한 증거다.
r/LocalLLaMA는 GigaChat 3.1에 강하게 반응했다. 이번 공개는 local-friendly 10B A1.8B MoE와 702B frontier-scale MoE를 모두 아우르며, 둘 다 MIT terms 아래 공개됐고 둘 다 scratch부터 학습했다고 제시됐다.
r/LocalLLaMA의 새 스레드는 NVIDIA의 Nemotron-Cascade-2-30B-A3B가 중형 Qwen 3.5 계열보다 더 강한 coding 결과를 낼 수 있다고 주장하며 주목을 끌었다. community benchmark와 NVIDIA의 model card를 함께 보면, local inference 비용과 reasoning 성능 사이의 새로운 균형점을 찾으려는 흐름이 읽힌다.
2026년 3월 16일 r/LocalLLaMA의 Mistral Small 4 글은 최신 사용 가능 크롤 기준 606 points와 232 comments를 기록했다. Mistral 모델 카드는 4 active expert, 256k context, 멀티모달 입력, 요청별 reasoning 전환을 갖춘 119B급 MoE를 설명한다.
LocalLLaMA의 release post는 OmniCoder-9B를 425,000개 이상 agentic trajectory로 학습한 Qwen3.5-9B 기반 coding agent로 소개했고, 댓글은 read-before-write 같은 실제 작업 습관에 주목했다.
NVIDIA의 Nemotron 3 Super는 120B total / 12B active hybrid Mamba-Transformer MoE, native 1M-token context, 그리고 open weights·datasets·recipes를 함께 내세운다. LocalLLaMA discussion은 이 openness와 efficiency claim이 실제 home-lab deployment로 이어질 수 있는지에 집중했다.
Hacker News에서 높은 관심을 받은 Qwen 이슈는 모델 성능 급진전과 팀 재편 리스크가 동시에 나타난 사례다. Qwen 3.5의 빠른 라인업 확장과 핵심 연구진 이탈 보도가 겹치며 오픈 웨이트 생태계의 지속 가능성이 핵심 쟁점으로 부상했다.
r/LocalLLaMA에서 Qwen3.5-122B-A10B 공개 링크가 빠르게 확산되며, GGUF 배포 시점과 양자화 효율, 실사용 처리량이 주요 화두가 됐다. 모델 카드 기준으로는 122B total / 10B activated MoE 구조, Apache-2.0 라이선스, 262,144 토큰 기본 컨텍스트가 제시됐다.
LocalLLaMA 커뮤니티에서 Qwen3.5-35B-A3B 모델 카드가 빠르게 확산됐다. MoE 구조, 긴 context, 다양한 serving 프레임워크 호환성이 핵심 포인트로 언급된다.