新しい r/LocalLLaMA スレッドは、Graph-RAG の multi-hop QA における bottleneck が retrieval ではなく reasoning かもしれないという結果を押し上げた。structured prompting と graph-based context compression を組み合わせれば、open な Llama 8B が plain 70B baseline に対抗できるという主張が核だ。
#reasoning
RSS FeedOpenAIは2026年3月5日、GPT-5.4 ThinkingとGPT-5.4 ProをChatGPTへ順次展開し、GPT-5.4をAPIとCodexでも提供すると発表した。OpenAIの公式紹介ページは、GPT-5.4をreasoning・coding・native computer use・長期agent workflowを一つに束ねたfrontier modelとして位置づけている。
Show HNで注目された llm-circuit-finder は、training や weight changes なしで layer routing だけで reasoning を押し上げられると主張する。ただし README の全体 benchmark は IFEval/MBPP と平均値の悪化も示しており、これは universal improvement というより capability steering と見る方が妥当だ。
2026年3月20日のr/LocalLLaMAではNVIDIA Nemotron-Cascade-2-30B-A3Bが話題となり、30B total parametersのうち3B activatedという構成とthinking/instruct dual modeの組み合わせが注目点になった。
2026年3月16日のr/LocalLLaMAで、Mistral Small 4の投稿は最新利用可能クロールで606 pointsと232 commentsを集めた。Mistralのモデルカードは、4 active experts、256k context、マルチモーダル入力、リクエスト単位のreasoning切替を備えた119B級MoEを説明している。
2026年3月16日、Mistral Small 4 への r/LocalLLaMA リンクは504 pointsと196 commentsを集めた。Hugging Face model card は、4 active experts の 119B MoE、256k context、multimodal input、per-request reasoning control を打ち出している。
OpenAIは2026年2月20日、First Proofの研究級数学問題10問すべてに対するproof attemptを公開した。会社はexpert feedbackの後、少なくとも5件は正しい可能性が高いと見ている一方、いくつかは審査中で、problem 2の試みは誤りだと判断した。
OpenAIは2026年3月5日のX投稿で、GPT-5.4 Thinking の Chain-of-Thought controllability が低いと説明した。新しい open-source 評価と論文は、CoT monitoring が当面有効な safety signal であり続ける可能性を示している。
2026年3月9日にarXivへ投稿されたAres論文は、multi-step LLM agentの各ステップでreasoning effortを動的に選ぶ手法を提案した。著者らはfixed high-effort設定に比べ、reasoning token使用量を最大52.7%削減しつつ成功率低下を小さく抑えたと報告している。
OpenAIは2026年3月5日、GPT-5.4をChatGPT、API、Codexで順次提供すると発表した。GPT-5.3-Codexのcoding能力を本流のreasoning modelに統合し、native computer useとCodexでのexperimental 1M context supportを打ち出している。
OpenAIはChain-of-Thought controllabilityに関する新しいevaluation suiteとresearch paperを公開した。GPT-5.4 Thinkingはreasoningを隠す能力が低く、CoT monitoringが引き続き有効な safety signalになり得ると同社は説明している。
新しいllama.cpp変更は<code>--reasoning-budget</code>をtemplate stubではなくsampler側の実制御へ変える。LocalLLaMA threadでは、長いthink loopを削ることとanswer qualityを守ることのtradeoff、とくにlocal Qwen 3.5環境での意味が集中的に議論された。