#moe

LLM Reddit 5d ago 1 min read

Cohere 미공개 coding model, LocalLLaMA가 먼저 만진 30B/3B MoE

LocalLLaMA의 관심은 “또 하나의 coding model”보다, Cohere 직원이 release 전 weights를 직접 커뮤니티에 맡긴 방식에 쏠렸다.

LLM Hacker News May 30, 2026 1 min read

Liquid AI, 38조 토큰 학습 MoE 모델 공개

Liquid AI가 38조 토큰으로 학습한 8B-A1B MoE 모델 LFM2.5를 공개했다. M5 Max에서 초당 253토큰, 모바일에서 30토큰, H100에서 초당 1만 8500토큰의 추론 성능을 자랑하며 동급 밀집 모델을 상회한다.

#liquid-ai #llm #moe

LLM Reddit Apr 30, 2026 1 min read

MiMo-V2.5-Pro, LocalLLaMA가 본 집에서 돌리는 Opus 후보

LocalLLaMA가 MiMo-V2.5-Pro에 크게 반응한 이유는 오픈소스와 스펙이 동시에 세게 들어왔기 때문이다. MIT 라이선스, 1.02T total, 42B active, 1M context라는 숫자는 매력적이었지만, 댓글은 곧바로 “이걸 누가 어떤 장비로 돌리나”로 넘어갔다.

#xiaomi #mimo #moe

LLM Reddit Apr 26, 2026 1 min read

DeepSeek V4 등장, LocalLLaMA가 먼저 계산한 건 메모리

LocalLLaMA는 DeepSeek V4 공개 자체보다, 1M context와 activated parameter 수가 실제 하드웨어에서 어떤 의미인지부터 계산하기 시작했다. 스레드는 곧 “RAM을 더 질렀어야 했다”는 반응과 MIT license 호평으로 채워졌다.

#deepseek-v4 #open-weights #moe

LLM Hacker News Apr 24, 2026 1 min read

DeepSeek V4에 HN 폭주, 문서 링크보다 더 크게 번진 건 곧바로 뜬 가중치

HN은 이번 스레드를 단순한 모델 공개로 보지 않았다. API 문서보다 먼저 Hugging Face 가중치와 base 모델이 모습을 드러내자, 커뮤니티의 관심은 홍보보다 실물 검증으로 곧장 옮겨갔다.

#deepseek #llm #moe

LLM Reddit Apr 24, 2026 1 min read

모델보다 배관이 뜨겁다, LocalLLaMA가 DeepEP V2에 몰린 이유

LocalLLaMA가 반긴 건 또 하나의 성능표가 아니라, MoE 배관을 실제로 더 빠르게 돌릴 수 있는 공개 인프라였다. 댓글도 DeepSeek가 내부 성과를 묶어두지 않고 통신·커널 작업을 밖으로 내놓는 데 꽂혔다.

#deepseek #deepep #tilekernels

AI X/Twitter Apr 17, 2026 1 min read

Qwen3.6-35B-A3B, 35B MoE 오픈가중치와 3B 활성 파라미터·Apache 2.0 공개

중요한 점은 Alibaba가 multimodal coding model을 API 전용이 아니라 open weights로 풀었다는 데 있다. 트윗은 Qwen3.6-35B-A3B가 35B total parameters, 3B active parameters, Apache 2.0 license를 갖췄다고 적었고, 블로그는 SWE-bench Verified 73.4와 Terminal-Bench 2.0 51.5를 제시했다.

#qwen #open-weights #moe

LLM Hacker News Apr 16, 2026 1 min read

Qwen3.6-35B-A3B, HN이 주목한 건 3B active MoE의 코딩 성능이었다

HN이 먼저 본 포인트는 open weights였다. 35B MoE지만 active parameter가 3B인 모델이 실제 coding agent 일을 버틸 수 있느냐가 핵심이었다. Qwen은 Qwen3.5-35B-A3B 대비 큰 개선을 내세웠고, 댓글은 곧바로 GGUF 변환, Mac 메모리 한계, open model끼리만 비교한 benchmark 해석으로 옮겨갔다.

#qwen #open-weights #coding-agents

LLM Reddit Apr 16, 2026 1 min read

VRAM에 자주 쓰는 expert만 올리자, LocalLLaMA가 본 27% 속도 향상

LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.

#local-llm #llama-cpp #moe

LLM X/Twitter Apr 8, 2026 1 min read

Cursor, Blackwell용 warp decode 공개… MoE inference 1.84배 가속 주장

Cursor는 2026년 4월 6일 X에서 NVIDIA Blackwell GPUs용 MoE token generation path를 다시 설계했다고 밝혔다. 함께 공개한 engineering post에서 회사는 "warp decode"가 inference throughput을 1.84배 높이고 outputs를 FP32 reference에 1.4배 더 가깝게 만든다고 주장했다.

#cursor #moe #inference

LLM Reddit Mar 28, 2026 2 min read

LocalLLaMA가 본 NVIDIA gpt-oss-puzzle-88B, gpt-oss-120b를 더 싸게 서빙하려는 88B 재설계

2026년 3월 26일 NVIDIA의 `gpt-oss-puzzle-88B` 모델 카드를 링크한 r/LocalLLaMA 글은 크롤링 시점 기준 284 points와 105 comments를 기록했다. NVIDIA는 이 88B MoE 모델이 Puzzle post-training NAS 파이프라인으로 파라미터와 KV-cache 부담을 줄이면서도 reasoning 정확도를 부모 모델 수준으로 유지하거나 소폭 높인다고 설명한다.

#nvidia #gpt-oss #open-weights

LLM Reddit Mar 19, 2026 1 min read

LocalLLaMA가 본 Mistral Small 4, Instruct·Reasoning·Devstral을 하나의 MoE로 접다

2026년 3월 16일 r/LocalLLaMA의 Mistral Small 4 글은 최신 사용 가능 크롤 기준 606 points와 232 comments를 기록했다. Mistral 모델 카드는 4 active expert, 256k context, 멀티모달 입력, 요청별 reasoning 전환을 갖춘 119B급 MoE를 설명한다.

#mistral #multimodal #reasoning