Skip to content
LLM Hacker News May 30, 2026 1 min read

Liquid AI가 38조 토큰으로 학습한 8B-A1B MoE 모델 LFM2.5를 공개했다. M5 Max에서 초당 253토큰, 모바일에서 30토큰, H100에서 초당 1만 8500토큰의 추론 성능을 자랑하며 동급 밀집 모델을 상회한다.

LLM Reddit Apr 30, 2026 1 min read

LocalLLaMA가 MiMo-V2.5-Pro에 크게 반응한 이유는 오픈소스와 스펙이 동시에 세게 들어왔기 때문이다. MIT 라이선스, 1.02T total, 42B active, 1M context라는 숫자는 매력적이었지만, 댓글은 곧바로 “이걸 누가 어떤 장비로 돌리나”로 넘어갔다.

LLM Hacker News Apr 16, 2026 1 min read

HN이 먼저 본 포인트는 open weights였다. 35B MoE지만 active parameter가 3B인 모델이 실제 coding agent 일을 버틸 수 있느냐가 핵심이었다. Qwen은 Qwen3.5-35B-A3B 대비 큰 개선을 내세웠고, 댓글은 곧바로 GGUF 변환, Mac 메모리 한계, open model끼리만 비교한 benchmark 해석으로 옮겨갔다.

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.

LLM Reddit Mar 28, 2026 2 min read

2026년 3월 26일 NVIDIA의 `gpt-oss-puzzle-88B` 모델 카드를 링크한 r/LocalLLaMA 글은 크롤링 시점 기준 284 points와 105 comments를 기록했다. NVIDIA는 이 88B MoE 모델이 Puzzle post-training NAS 파이프라인으로 파라미터와 KV-cache 부담을 줄이면서도 reasoning 정확도를 부모 모델 수준으로 유지하거나 소폭 높인다고 설명한다.