Cohere未公開coding model、LocalLLaMAが先に試す30B/3B構成
Original: Cohere's unreleased coding model (early access for localllama) View original →
CohereのNick Frosstが r/LocalLLaMA に、未公開coding modelのearly accessを投稿した。本文によると、このモデルは30B規模で、active parameterは3B。正式公開前の段階として、現在はHugging Faceの CohereLabs/BLS-Mini-Code-1.0 から試せる。対応プラットフォームは正式releaseに向けて増える予定だという。
目を引くのは公開の順番だ。通常なら新モデルはblog post、benchmark、整ったdemoを先に出し、その後にコミュニティ検証が続く。今回はLocalLLaMAのユーザーに先にweightsを渡し、実際の用途で試してほしいという依頼が前面に出た。Frosstは最近のCommand A+への反応にも触れ、今回のreleaseから得た学びを今後のモデル開発に生かしたいと説明している。
技術的な狙いはlocal setupで扱いやすいcoding modelだ。30B totalで3B activeという説明は、毎回すべてのパラメータを使わないMoE系の設計を連想させる。投稿では、同じsize classのモデルと同程度のtoken output testが出ているとされる。ただしまだ正式公開前であり、単独のbenchmarkよりも、ユーザーごとの実験結果が重要になる段階だ。
LocalLLaMAはこの種の試みに厳しい。VRAM、quantization、llama.cpp対応、実際のcoding taskでの速度や安定性がすぐに試される。Cohereにとっては、それが狙いでもある。正式なメッセージを固める前に、local inferenceに詳しいユーザーから具体的な失敗例と成功例を集める。このearly accessは、モデル公開がコミュニティ参加型へ寄っていることを示す一例だ。
Related Articles
Liquid AIがLFM2.5 8B-A1Bを発表。M5 Maxで毎秒253トークン、モバイルで30トークン、H100で18,500トークンの推論速度を達成し、同サイズの密なモデルを凌駕する性能を示した。
r/LocalLLaMAの投稿(スコア180、コメント53)は、MoE向けハイブリッドruntime <code>Krasis</code>のベンチマークを共有した。主張は、GPU中心のprefillとCPU decodeの分離により、consumer環境でも長文contextの待ち時間を短縮できるという点にある。
HNの反応はコードだけでなくREADMEに集まった。vLLMの考え方を、小さな実装と教材の流れに落とし込んでいる点が評価された。