Cohere 미공개 coding model, LocalLLaMA가 먼저 만진 30B/3B MoE
Original: Cohere's unreleased coding model (early access for localllama) View original →
Cohere의 Nick Frosst가 r/LocalLLaMA에 미공개 coding model의 early access를 열었다. 글에 따르면 모델은 30B 규모지만 active parameter는 3B인 구조이고, 공식 출시 전 단계라 Hugging Face의 CohereLabs/BLS-Mini-Code-1.0에 먼저 올라왔다. 더 많은 플랫폼 지원은 정식 release에 맞춰 이어질 예정이다.
흥미로운 점은 배포 순서다. 보통 새 모델은 blog post, benchmark, polished demo가 먼저 나오고 커뮤니티는 뒤에서 검증한다. 이번에는 LocalLLaMA 사용자에게 먼저 돌려 보고, 실제 사용 목표에 맞춰 테스트해 달라는 요청이 앞섰다. 작성자는 최근 Command A+ 관련 피드백을 읽었다고 밝히며, 이번 release의 학습을 다음 모델 개발에 반영하려는 의도를 설명했다.
기술적으로는 local setup에서 다루기 쉬운 coding model이라는 포지션이 분명하다. 30B total에 3B active라는 설명은 MoE 계열의 “크지만 매번 전부 쓰지는 않는” 구조를 떠올리게 한다. 글은 속도에 대한 내부 token output test가 비슷한 size class 모델과 맞먹는 수준이라고 말하지만, 아직 공개 전 모델이므로 benchmark보다 사용자별 실험이 더 중요하다는 뉘앙스다.
LocalLLaMA가 이런 글에 민감하게 반응하는 이유도 여기 있다. 이 커뮤니티는 leader board보다 VRAM, quantization, llama.cpp 지원, 실제 coding task에서의 체감 속도를 빠르게 검증한다. Cohere 입장에서는 정식 메시지를 다듬기 전에 가장 까다로운 local inference 사용자에게 모델을 맡긴 셈이다. 결과가 좋든 나쁘든, 이번 early access는 모델 공개가 점점 더 community-in-the-loop 방식으로 바뀌고 있다는 신호다.
Related Articles
Liquid AI가 38조 토큰으로 학습한 8B-A1B MoE 모델 LFM2.5를 공개했다. M5 Max에서 초당 253토큰, 모바일에서 30토큰, H100에서 초당 1만 8500토큰의 추론 성능을 자랑하며 동급 밀집 모델을 상회한다.
r/LocalLLaMA의 게시글(점수 180, 댓글 53)은 CPU/GPU 하이브리드 MoE runtime <code>Krasis</code>의 장문 벤치마크를 공유했다. 핵심 주장은 “GPU로 prefill, CPU로 decode” 분리를 통해 VRAM이 부족한 환경에서 긴 컨텍스트 응답 대기 시간을 줄일 수 있다는 점이다.
관심은 성능 자랑보다 README의 학습 설계에 모였다. vLLM의 핵심을 작은 코드와 수업 흐름으로 재구성한 점이 반응을 얻었다.