Cohere未公開coding model、LocalLLaMAが先に試す30B/3B構成

CohereのNick Frosstが r/LocalLLaMA に、未公開coding modelのearly accessを投稿した。本文によると、このモデルは30B規模で、active parameterは3B。正式公開前の段階として、現在はHugging Faceの CohereLabs/BLS-Mini-Code-1.0 から試せる。対応プラットフォームは正式releaseに向けて増える予定だという。

目を引くのは公開の順番だ。通常なら新モデルはblog post、benchmark、整ったdemoを先に出し、その後にコミュニティ検証が続く。今回はLocalLLaMAのユーザーに先にweightsを渡し、実際の用途で試してほしいという依頼が前面に出た。Frosstは最近のCommand A+への反応にも触れ、今回のreleaseから得た学びを今後のモデル開発に生かしたいと説明している。

技術的な狙いはlocal setupで扱いやすいcoding modelだ。30B totalで3B activeという説明は、毎回すべてのパラメータを使わないMoE系の設計を連想させる。投稿では、同じsize classのモデルと同程度のtoken output testが出ているとされる。ただしまだ正式公開前であり、単独のbenchmarkよりも、ユーザーごとの実験結果が重要になる段階だ。

LocalLLaMAはこの種の試みに厳しい。VRAM、quantization、llama.cpp対応、実際のcoding taskでの速度や安定性がすぐに試される。Cohereにとっては、それが狙いでもある。正式なメッセージを固める前に、local inferenceに詳しいユーザーから具体的な失敗例と成功例を集める。このearly accessは、モデル公開がコミュニティ参加型へ寄っていることを示す一例だ。

Cohere未公開coding model、LocalLLaMAが先に試す30B/3B構成

Related Articles

r/LocalLLaMA検証: <code>Krasis</code>が単一RTX 5080で80B MoEの3,324 tok/s prefillを報告

OpenPangu-2.0-Flash公開、92B total・6B active MoEにLocalLLaMAが注目

低速PCでGLM-5.2を動かすColibri、焦点はGPUではなくメモリ移動

Related Articles

r/LocalLLaMA検証: <code>Krasis</code>が単一RTX 5080で80B MoEの3,324 tok/s prefillを報告
LLM Reddit Mar 1, 2026 1 min read

OpenPangu-2.0-Flash公開、92B total・6B active MoEにLocalLLaMAが注目
LLM Reddit Jun 30, 2026 1 min read

低速PCでGLM-5.2を動かすColibri、焦点はGPUではなくメモリ移動
LLM Hacker News Jul 10, 2026 1 min read