#local-llm

LLM Reddit Mar 24, 2026 1 min read

LocalLLaMAが掘り下げたRYS II、Qwen3.5-27Bの反復レイヤー実験の意味

活発なLocalLLaMAスレッドはDavid Noel NgのRYS II結果を追い、middle transformer layerの反復がQwen3.5-27Bをなお改善しうること、そしてhidden stateが表面言語より意味で整列している可能性に注目した。

#qwen #open-weights #model-architecture

LLM Reddit Mar 22, 2026 1 min read

r/LocalLLaMA、ik_llama.cppでQwen 3.5のprompt ingestionが26倍高速と報告

r/LocalLLaMAの高シグナル benchmark 投稿は、Qwen 3.5 27Bをmainline llama.cppからik_llama.cppへ切り替えると、Blackwell RTX PRO 4000上でprompt evaluationが約43 tok/secから1,122 tok/secへ伸び、generationも7.5 tok/secから26 tok/secへ上がったと伝えた。

#llama.cpp #qwen #local-llm

LLM Reddit Mar 22, 2026 1 min read

r/LocalLLaMAが再評価するNemotron Cascade、小さなactivated paramsで強いcoding性能

r/LocalLLaMA の新しいスレッドでは、NVIDIA の Nemotron-Cascade-2-30B-A3B が medium Qwen 3.5 系より強い coding 結果を出せるとして注目を集めた。community benchmark と NVIDIA の model card を並べると、local inference のコストと reasoning 性能の新しい折り合いが見えてくる。

#nvidia #nemotron #local-llm

LLM sources.twitter Mar 21, 2026 1 min read

Ollama、NVIDIA Nemotron-Cascade-2を公開　local・agent workflow向け30B MoE reasoning modelを提供

Ollamaは2026年3月20日、NVIDIAのNemotron-Cascade-2を自社のlocal model stackで実行できるようになったと発表した。公式モデルページでは、3B activated parameterを使うopen 30B MoE modelとして紹介し、thinking・instructモードとOpenClaw・Codex・Claude向け導線を示している。

#ollama #nvidia #nemotron-cascade-2

LLM Reddit Mar 20, 2026 1 min read

r/LocalLLaMAで進むQwen3.5実用プリセットの整理

公開から数週間が経ち、r/LocalLLaMA では Qwen3.5 に対して 1 つの既定値ではなく、task ごとの sampler と reasoning budget を使い分ける方向へ知見が集まりつつある。

#qwen #llama.cpp #local-llm

LLM Reddit Mar 20, 2026 1 min read

LocalLLaMAが議論したOpenCodeとOSSモデル時代のコーディングエージェント

OpenCodeをめぐるr/LocalLLaMAの議論は、provider-agnosticなコーディングエージェント、MCP設定、オープンモデルのtool calling品質という実務的な論点を浮かび上がらせた。

#opencode #coding-agent #mcp

LLM Reddit Mar 20, 2026 1 min read

LocalLLaMAで話題になったコミュニティ製Qwen 3.5 9B GGUFマージ

r/LocalLLaMAで人気を集めたこの投稿は、uncensored変更とreasoning distillationを組み合わせたQwen 3.5 9Bのコミュニティ実験を取り上げ、小型ローカルモデル調整の関心を映し出した。

#qwen #gguf #distillation

LLM Hacker News Mar 19, 2026 1 min read

Hacker Newsが見つけたGreenBoost、system RAMとNVMeでGPU VRAMを拡張するLinuxスタック

2026年3月15日のGreenBoostに関するHacker News投稿は124 points、25 commentsに達した。このopen-source Linux projectはkernel moduleとCUDA shimを組み合わせ、model memoryをVRAM、DDR4、NVMeに階層化することで、inference appを変えずにより大きなlocal LLMを動かそうとしている。

#nvidia #gpu-memory #local-llm

LLM Reddit Mar 18, 2026 1 min read

LocalLLaMAが注目したHugging Face hf-agents、ローカルcoding agentを一発で立ち上げる導線

2026年3月17日のr/LocalLLaMAで、hf-agentsの投稿は534 pointsと69 commentsを集めた。このツールはllmfit、llama.cpp、Piをつなぎ、ハードウェア検出からローカルcoding agent起動までを一つの流れにまとめる。

#huggingface #llama.cpp #local-llm

LLM Hacker News Mar 18, 2026 1 min read

Hacker Newsで注目のUnsloth Studio、local LLM workflowをchat・tuning・exportまで一体化

Unsloth StudioがHacker Newsのフロントページに上がり、local-firstなAI作業環境への需要を示した。ドキュメントはchat、installation、data recipes、model exportを一つの流れにまとめ、local LLM toolingの次の段階を見せている。

#unsloth #local-llm #model-training

LLM Hacker News Mar 11, 2026 1 min read

Hacker Newsが注目したBitNet、単一CPUで100B級1-bit inferenceを狙う

Hacker NewsはMicrosoftのbitnet.cppを再浮上させ、新しい100B checkpointというよりも、1.58-bit inferenceと省電力なlocal LLM運用へ向けたinfra更新として受け止めた。

#bitnet #local-llm #cpu-inference

LLM Reddit Mar 10, 2026 1 min read

r/LocalLLaMA、M1 ProでQwen 3.5 9Bを実際のローカルagentとして試す

高スコアのLocalLLaMA投稿では、16GBのM1 Pro上でQwen 3.5 9Bがmemory recallと基本的なtool callingを実運用向けにこなしつつ、creative reasoningでは依然としてfrontier modelに及ばなかったと報告された。

#qwen #local-llm #ollama

#local-llm

LocalLLaMAが掘り下げたRYS II、Qwen3.5-27Bの反復レイヤー実験の意味

r/LocalLLaMA、ik_llama.cppでQwen 3.5のprompt ingestionが26倍高速と報告

r/LocalLLaMAが再評価するNemotron Cascade、小さなactivated paramsで強いcoding性能

Ollama、NVIDIA Nemotron-Cascade-2を公開 local・agent workflow向け30B MoE reasoning modelを提供

r/LocalLLaMAで進むQwen3.5実用プリセットの整理

LocalLLaMAが議論したOpenCodeとOSSモデル時代のコーディングエージェント

LocalLLaMAで話題になったコミュニティ製Qwen 3.5 9B GGUFマージ

Hacker Newsが見つけたGreenBoost、system RAMとNVMeでGPU VRAMを拡張するLinuxスタック

LocalLLaMAが注目したHugging Face hf-agents、ローカルcoding agentを一発で立ち上げる導線

Hacker Newsで注目のUnsloth Studio、local LLM workflowをchat・tuning・exportまで一体化

Hacker Newsが注目したBitNet、単一CPUで100B級1-bit inferenceを狙う

r/LocalLLaMA、M1 ProでQwen 3.5 9Bを実際のローカルagentとして試す

Ollama、NVIDIA Nemotron-Cascade-2を公開　local・agent workflow向け30B MoE reasoning modelを提供