LocalLLaMAが見た本題は最高速ではなかった。RTX 3090一枚で218K文脈まで伸ばし、長いtool outputでも落ちにくくした構成が評価された。
#local-llm
RSS FeedLocalLLaMAがこの投稿に反応した理由は宣伝文句ではなく実測値だ。RTX 5060 Ti 16GBを2枚使い、Qwen3.6 27Bを約60 tok/s、204kコンテキストまで持ち上げた構成が共有された。
LocalLLaMAがこの投稿を評価したのは、『Gemma 4は何となく弱い』で終わらなかったからだ。nullableなJSON Schemaが空のtypeに潰れるという具体的な壊れ方を切り出し、小さなJinja修正でtool callingが戻るところまで持っていった。
LocalLLaMAがすぐ反応したのは、体感に直結する話だったからだ。小さなGBNF制約だけでQwen3.6のreasoning dragを減らし、長い作業のトークン浪費と時間をまとめて削ったという主張が出た。
これは単純な「ローカルモデルは駄目だ」という愚痴では終わらなかった。期待値の修正に共感する声と、痛みのかなりの部分はハーネス側にもあるという反論が同じスレッドでぶつかったからだ。
LocalLLaMAがHipfireに反応したのは、新しいrepoが出たからではない。RDNA勢が長く待っていた「最初からAMD前提」のローカル推論スタックに見えたからだ。
r/LocalLLaMAのMacBook Air M5 benchmarkは、Qwen 3.6 35B-A3Bの89.6% HumanEval+だけでなく、RAMとtok/sを一緒に見る実用的な視点を出した。
r/LocalLLaMAの投稿は正式なbenchmarkではないが、hosted modelがupdateやfilterで揺れる中、local modelのcontrolが価値になるというcommunity moodをよく表している。
LocalLLaMAはQwen3.6-27Bを単なるmodel cardではなく、すぐquantizeして手元で試せるownershipの話として受け止めた。
LocalLLaMAが反応したのは翻訳appそのものではなく、detection、visual OCR、inpainting、local LLMを一つのworkflowにした点だった。
LocalLLaMAが反応したのは新model自慢ではなく、--fitが「VRAMに全部入らなければ遅い」という経験則を揺らしたからだ。
r/LocalLLaMAが900 points超まで反応した理由はscore表ではない。local coding agentがcanvas bugとwave completion issueを見つけて直したという使用感だった。