Cohere 미공개 coding model, LocalLLaMA가 먼저 만진 30B/3B MoE

Cohere의 Nick Frosst가 r/LocalLLaMA에 미공개 coding model의 early access를 열었다. 글에 따르면 모델은 30B 규모지만 active parameter는 3B인 구조이고, 공식 출시 전 단계라 Hugging Face의 CohereLabs/BLS-Mini-Code-1.0에 먼저 올라왔다. 더 많은 플랫폼 지원은 정식 release에 맞춰 이어질 예정이다.

흥미로운 점은 배포 순서다. 보통 새 모델은 blog post, benchmark, polished demo가 먼저 나오고 커뮤니티는 뒤에서 검증한다. 이번에는 LocalLLaMA 사용자에게 먼저 돌려 보고, 실제 사용 목표에 맞춰 테스트해 달라는 요청이 앞섰다. 작성자는 최근 Command A+ 관련 피드백을 읽었다고 밝히며, 이번 release의 학습을 다음 모델 개발에 반영하려는 의도를 설명했다.

기술적으로는 local setup에서 다루기 쉬운 coding model이라는 포지션이 분명하다. 30B total에 3B active라는 설명은 MoE 계열의 “크지만 매번 전부 쓰지는 않는” 구조를 떠올리게 한다. 글은 속도에 대한 내부 token output test가 비슷한 size class 모델과 맞먹는 수준이라고 말하지만, 아직 공개 전 모델이므로 benchmark보다 사용자별 실험이 더 중요하다는 뉘앙스다.

LocalLLaMA가 이런 글에 민감하게 반응하는 이유도 여기 있다. 이 커뮤니티는 leader board보다 VRAM, quantization, llama.cpp 지원, 실제 coding task에서의 체감 속도를 빠르게 검증한다. Cohere 입장에서는 정식 메시지를 다듬기 전에 가장 까다로운 local inference 사용자에게 모델을 맡긴 셈이다. 결과가 좋든 나쁘든, 이번 early access는 모델 공개가 점점 더 community-in-the-loop 방식으로 바뀌고 있다는 신호다.

Cohere 미공개 coding model, LocalLLaMA가 먼저 만진 30B/3B MoE

Related Articles

r/LocalLLaMA 벤치마크: 단일 RTX 5080에서 80B MoE 프리필 3,324 tok/s를 보고한 <code>Krasis</code>

OpenPangu-2.0-Flash 공개, 92B total·6B active MoE에 쏠린 관심

GLM-5.2를 느린 PC에서 돌리는 Colibri, Local AI의 병목은 GPU만이 아닌 이유

Related Articles

r/LocalLLaMA 벤치마크: 단일 RTX 5080에서 80B MoE 프리필 3,324 tok/s를 보고한 <code>Krasis</code>
LLM Reddit Mar 1, 2026 1 min read

OpenPangu-2.0-Flash 공개, 92B total·6B active MoE에 쏠린 관심
LLM Reddit Jun 30, 2026 1 min read

GLM-5.2를 느린 PC에서 돌리는 Colibri, Local AI의 병목은 GPU만이 아닌 이유
LLM Hacker News Jul 10, 2026 1 min read