LocalLLaMAで話題になったのは新しいcoding modelそのものだけでなく、Cohereが正式公開前のweightsを先にコミュニティへ渡した点だった。
#localllama
RSS FeedLocalLLaMAが盛り上がったのは、単なるベンチマーク更新ではなかった。公式スコアも強いが、本当の熱量はFP8やGGUF、VRAM適合の話がすぐ始まったことにあった。2026年4月25日時点でスレッドは1,688ポイント、603コメントだった。
r/LocalLLaMAのMacBook Air M5 benchmarkは、Qwen 3.6 35B-A3Bの89.6% HumanEval+だけでなく、RAMとtok/sを一緒に見る実用的な視点を出した。
r/LocalLLaMAの投稿は正式なbenchmarkではないが、hosted modelがupdateやfilterで揺れる中、local modelのcontrolが価値になるというcommunity moodをよく表している。
r/LocalLLaMA の self-post が、2x H200 上で GPT-OSS-120B を回しながら 1 日あたり 10 億 token 超を処理する内部 serving stack を公開した。vLLM、LiteLLM、mxfp4、queueing bottleneck まで含めた具体的な運用データがコミュニティの注目を集めている。
LocalLLaMA のスレッドが Gemma 4 31B の予想外に強い FoodTruck Bench 成績を取り上げた。議論はすぐに長期計画能力と benchmark の信頼性へ広がった。
r/LocalLLaMAの実験投稿は、model depthの約50〜56%付近でlayerを複製すると性能低下やoutput崩壊が起きると主張する。Dense、hybrid、MoE、transplantをまとめて比べている点で、単なる anecdote より一歩踏み込んでいる。
r/LocalLLaMAの投稿(スコア180、コメント53)は、MoE向けハイブリッドruntime <code>Krasis</code>のベンチマークを共有した。主張は、GPU中心のprefillとCPU decodeの分離により、consumer環境でも長文contextの待ち時間を短縮できるという点にある。
LLmFitはハードウェア適合モデル探索の自動化ツールとして注目されたが、Redditでは互換性前提や推薦精度の検証を求める声も強かった。
r/LocalLLaMAの高反応投稿で、UnslothのQwen3.5-35B-A3B Dynamic GGUF更新が共有され、KLD/PPL指標と下流評価の両立が議論された。
LocalLLaMAの高反応投稿でKitten TTS v0.8が注目を集めた。80M/40M/14Mの公開モデルとCPU実行、最小25MB未満という軽量性が論点になっている。
LocalLLaMAで注目された投稿は、13.6Mパラメータのmatmul-freeモデルを2スレッドCPUで約1.2時間学習したと報告。計算負荷の主因はternaryコアではなく出力ヘッドだという主張が議論を呼んだ。