LocalLLaMA의 관심은 “또 하나의 coding model”보다, Cohere 직원이 release 전 weights를 직접 커뮤니티에 맡긴 방식에 쏠렸다.
#moe
RSS FeedLiquid AI가 38조 토큰으로 학습한 8B-A1B MoE 모델 LFM2.5를 공개했다. M5 Max에서 초당 253토큰, 모바일에서 30토큰, H100에서 초당 1만 8500토큰의 추론 성능을 자랑하며 동급 밀집 모델을 상회한다.
LocalLLaMA가 MiMo-V2.5-Pro에 크게 반응한 이유는 오픈소스와 스펙이 동시에 세게 들어왔기 때문이다. MIT 라이선스, 1.02T total, 42B active, 1M context라는 숫자는 매력적이었지만, 댓글은 곧바로 “이걸 누가 어떤 장비로 돌리나”로 넘어갔다.
LocalLLaMA는 DeepSeek V4 공개 자체보다, 1M context와 activated parameter 수가 실제 하드웨어에서 어떤 의미인지부터 계산하기 시작했다. 스레드는 곧 “RAM을 더 질렀어야 했다”는 반응과 MIT license 호평으로 채워졌다.
HN은 이번 스레드를 단순한 모델 공개로 보지 않았다. API 문서보다 먼저 Hugging Face 가중치와 base 모델이 모습을 드러내자, 커뮤니티의 관심은 홍보보다 실물 검증으로 곧장 옮겨갔다.
LocalLLaMA가 반긴 건 또 하나의 성능표가 아니라, MoE 배관을 실제로 더 빠르게 돌릴 수 있는 공개 인프라였다. 댓글도 DeepSeek가 내부 성과를 묶어두지 않고 통신·커널 작업을 밖으로 내놓는 데 꽂혔다.
중요한 점은 Alibaba가 multimodal coding model을 API 전용이 아니라 open weights로 풀었다는 데 있다. 트윗은 Qwen3.6-35B-A3B가 35B total parameters, 3B active parameters, Apache 2.0 license를 갖췄다고 적었고, 블로그는 SWE-bench Verified 73.4와 Terminal-Bench 2.0 51.5를 제시했다.
HN이 먼저 본 포인트는 open weights였다. 35B MoE지만 active parameter가 3B인 모델이 실제 coding agent 일을 버틸 수 있느냐가 핵심이었다. Qwen은 Qwen3.5-35B-A3B 대비 큰 개선을 내세웠고, 댓글은 곧바로 GGUF 변환, Mac 메모리 한계, open model끼리만 비교한 benchmark 해석으로 옮겨갔다.
LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.
Cursor는 2026년 4월 6일 X에서 NVIDIA Blackwell GPUs용 MoE token generation path를 다시 설계했다고 밝혔다. 함께 공개한 engineering post에서 회사는 "warp decode"가 inference throughput을 1.84배 높이고 outputs를 FP32 reference에 1.4배 더 가깝게 만든다고 주장했다.
2026년 3월 26일 NVIDIA의 `gpt-oss-puzzle-88B` 모델 카드를 링크한 r/LocalLLaMA 글은 크롤링 시점 기준 284 points와 105 comments를 기록했다. NVIDIA는 이 88B MoE 모델이 Puzzle post-training NAS 파이프라인으로 파라미터와 KV-cache 부담을 줄이면서도 reasoning 정확도를 부모 모델 수준으로 유지하거나 소폭 높인다고 설명한다.
2026년 3월 16일 r/LocalLLaMA의 Mistral Small 4 글은 최신 사용 가능 크롤 기준 606 points와 232 comments를 기록했다. Mistral 모델 카드는 4 active expert, 256k context, 멀티모달 입력, 요청별 reasoning 전환을 갖춘 119B급 MoE를 설명한다.