#reasoning

LLM Reddit Mar 22, 2026 1 min read

r/LocalLLaMAが見たGraph-RAG、Llama 8Bでもmulti-hop QAで70Bに迫れる

新しい r/LocalLLaMA スレッドは、Graph-RAG の multi-hop QA における bottleneck が retrieval ではなく reasoning かもしれないという結果を押し上げた。structured prompting と graph-based context compression を組み合わせれば、open な Llama 8B が plain 70B baseline に対抗できるという主張が核だ。

#graph-rag #llama #reasoning

LLM sources.twitter Mar 21, 2026 1 min read

OpenAI、GPT-5.4 Thinking・GPT-5.4 ProをChatGPT・API・Codexへ展開

OpenAIは2026年3月5日、GPT-5.4 ThinkingとGPT-5.4 ProをChatGPTへ順次展開し、GPT-5.4をAPIとCodexでも提供すると発表した。OpenAIの公式紹介ページは、GPT-5.4をreasoning・coding・native computer use・長期agent workflowを一つに束ねたfrontier modelとして位置づけている。

#openai #gpt-5.4 #codex

LLM Hacker News Mar 21, 2026 1 min read

HNで議論された llm-circuit-finder: layer duplication は free upgrade ではなく capability steering

Show HNで注目された llm-circuit-finder は、training や weight changes なしで layer routing だけで reasoning を押し上げられると主張する。ただし README の全体 benchmark は IFEval/MBPP と平均値の悪化も示しており、これは universal improvement というより capability steering と見る方が妥当だ。

#llm #reasoning #benchmarks

LLM Reddit Mar 21, 2026 1 min read

r/LocalLLaMAが注目、公開30B MoE reasoning model NVIDIA Nemotron-Cascade-2-30B-A3B

2026年3月20日のr/LocalLLaMAではNVIDIA Nemotron-Cascade-2-30B-A3Bが話題となり、30B total parametersのうち3B activatedという構成とthinking/instruct dual modeの組み合わせが注目点になった。

#llm #reasoning #open-models

LLM Reddit Mar 19, 2026 1 min read

LocalLLaMAが見たMistral Small 4、Instruct・Reasoning・Devstralを一つのMoEへ統合

2026年3月16日のr/LocalLLaMAで、Mistral Small 4の投稿は最新利用可能クロールで606 pointsと232 commentsを集めた。Mistralのモデルカードは、4 active experts、256k context、マルチモーダル入力、リクエスト単位のreasoning切替を備えた119B級MoEを説明している。

#mistral #multimodal #reasoning

LLM Reddit Mar 17, 2026 1 min read

r/LocalLLaMAで注目の Mistral Small 4、119B MoE に 256k context と切替式 reasoning を統合

2026年3月16日、Mistral Small 4 への r/LocalLLaMA リンクは504 pointsと196 commentsを集めた。Hugging Face model card は、4 active experts の 119B MoE、256k context、multimodal input、per-request reasoning control を打ち出している。

#mistral #open-models #multimodal

LLM Mar 16, 2026 1 min read

OpenAI、First Proof提出物を公開研究級数学問題10問すべてにproof attempt

OpenAIは2026年2月20日、First Proofの研究級数学問題10問すべてに対するproof attemptを公開した。会社はexpert feedbackの後、少なくとも5件は正しい可能性が高いと見ている一方、いくつかは審査中で、problem 2の試みは誤りだと判断した。

#openai #theorem-proving #reasoning

LLM sources.twitter Mar 15, 2026 1 min read

OpenAI、GPT-5.4 Thinking の CoT を隠す能力はまだ低いと報告

OpenAIは2026年3月5日のX投稿で、GPT-5.4 Thinking の Chain-of-Thought controllability が低いと説明した。新しい open-source 評価と論文は、CoT monitoring が当面有効な safety signal であり続ける可能性を示している。

#openai #gpt-5.4 #cot

LLM Mar 14, 2026 1 min read

Ares論文、動的reasoning選択でLLM agentのtoken消費を最大52.7%削減

2026年3月9日にarXivへ投稿されたAres論文は、multi-step LLM agentの各ステップでreasoning effortを動的に選ぶ手法を提案した。著者らはfixed high-effort設定に比べ、reasoning token使用量を最大52.7%削減しつつ成功率低下を小さく抑えたと報告している。

#llm-agents #reasoning #efficiency

LLM Mar 14, 2026 1 min read

OpenAI、GPT-5.4を公開推論強化・native computer use・Codex 1M contextを導入

OpenAIは2026年3月5日、GPT-5.4をChatGPT、API、Codexで順次提供すると発表した。GPT-5.3-Codexのcoding能力を本流のreasoning modelに統合し、native computer useとCodexでのexperimental 1M context supportを打ち出している。

#openai #gpt-5.4 #reasoning

LLM Mar 12, 2026 1 min read

OpenAI、新たな安全研究でGPT-5.4 ThinkingのChain-of-Thought controllabilityの低さを報告

OpenAIはChain-of-Thought controllabilityに関する新しいevaluation suiteとresearch paperを公開した。GPT-5.4 Thinkingはreasoningを隠す能力が低く、CoT monitoringが引き続き有効な safety signalになり得ると同社は説明している。

#openai #reasoning #safety

LLM Reddit Mar 12, 2026 1 min read

r/LocalLLaMAが追ったllama.cppのreasoning budget制御

新しいllama.cpp変更は<code>--reasoning-budget</code>をtemplate stubではなくsampler側の実制御へ変える。LocalLLaMA threadでは、長いthink loopを削ることとanswer qualityを守ることのtradeoff、とくにlocal Qwen 3.5環境での意味が集中的に議論された。

#llama.cpp #reasoning #local-llms