Skip to content
LLM Reddit Mar 12, 2026 1 min read

새로운 llama.cpp 변경은 <code>--reasoning-budget</code>를 template stub이 아니라 sampler 차원의 실제 제어로 바꾼다. LocalLLaMA thread는 긴 think loop를 줄이는 것과 answer quality를 지키는 것 사이의 tradeoff, 특히 local Qwen 3.5 환경에서의 의미를 집중적으로 논의했다.

LLM X/Twitter Mar 11, 2026 1 min read

NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 12B active parameters를 사용하는 오픈 120B-parameter hybrid MoE 모델과 native 1M-token context를 강조했다. NVIDIA는 이 모델이 이전 Nemotron Super 대비 최대 5배 높은 throughput으로 agentic workload를 겨냥한다고 설명했다.