活発なLocalLLaMAスレッドはDavid Noel NgのRYS II結果を追い、middle transformer layerの反復がQwen3.5-27Bをなお改善しうること、そしてhidden stateが表面言語より意味で整列している可能性に注目した。
#local-llm
RSS Feedr/LocalLLaMAの高シグナル benchmark 投稿は、Qwen 3.5 27Bをmainline llama.cppからik_llama.cppへ切り替えると、Blackwell RTX PRO 4000上でprompt evaluationが約43 tok/secから1,122 tok/secへ伸び、generationも7.5 tok/secから26 tok/secへ上がったと伝えた。
r/LocalLLaMA の新しいスレッドでは、NVIDIA の Nemotron-Cascade-2-30B-A3B が medium Qwen 3.5 系より強い coding 結果を出せるとして注目を集めた。community benchmark と NVIDIA の model card を並べると、local inference のコストと reasoning 性能の新しい折り合いが見えてくる。
Ollamaは2026年3月20日、NVIDIAのNemotron-Cascade-2を自社のlocal model stackで実行できるようになったと発表した。公式モデルページでは、3B activated parameterを使うopen 30B MoE modelとして紹介し、thinking・instructモードとOpenClaw・Codex・Claude向け導線を示している。
公開から数週間が経ち、r/LocalLLaMA では Qwen3.5 に対して 1 つの既定値ではなく、task ごとの sampler と reasoning budget を使い分ける方向へ知見が集まりつつある。
OpenCodeをめぐるr/LocalLLaMAの議論は、provider-agnosticなコーディングエージェント、MCP設定、オープンモデルのtool calling品質という実務的な論点を浮かび上がらせた。
r/LocalLLaMAで人気を集めたこの投稿は、uncensored変更とreasoning distillationを組み合わせたQwen 3.5 9Bのコミュニティ実験を取り上げ、小型ローカルモデル調整の関心を映し出した。
2026年3月15日のGreenBoostに関するHacker News投稿は124 points、25 commentsに達した。このopen-source Linux projectはkernel moduleとCUDA shimを組み合わせ、model memoryをVRAM、DDR4、NVMeに階層化することで、inference appを変えずにより大きなlocal LLMを動かそうとしている。
2026年3月17日のr/LocalLLaMAで、hf-agentsの投稿は534 pointsと69 commentsを集めた。このツールはllmfit、llama.cpp、Piをつなぎ、ハードウェア検出からローカルcoding agent起動までを一つの流れにまとめる。
Unsloth StudioがHacker Newsのフロントページに上がり、local-firstなAI作業環境への需要を示した。ドキュメントはchat、installation、data recipes、model exportを一つの流れにまとめ、local LLM toolingの次の段階を見せている。
Hacker NewsはMicrosoftのbitnet.cppを再浮上させ、新しい100B checkpointというよりも、1.58-bit inferenceと省電力なlocal LLM運用へ向けたinfra更新として受け止めた。
高スコアのLocalLLaMA投稿では、16GBのM1 Pro上でQwen 3.5 9Bがmemory recallと基本的なtool callingを実運用向けにこなしつつ、creative reasoningでは依然としてfrontier modelに及ばなかったと報告された。