r/LocalLLaMAで拡散した Hugging Face Transformers の PR #44760 は、Mistral 4 を 128 experts、4 active experts、tokenあたり 6.5B activated parameters、256k context を備えた hybrid instruct/reasoning model として示している。
#llm
RSS Feed2026年3月20日のHacker NewsではAttention Residualsが議論され、固定residual additionの代わりにlearned depth-wise attentionを使う発想と、低いoverheadでの実装可能性が注目された。
Q Labsは100M tokensと18B-parameter ensembleで1B-token baselineに匹敵すると主張し、Hacker Newsではその利得が serving と deployment まで成立するのかがすぐに論点になった。
SkyPilotはClaude Codeが8時間で約910件の autoresearch 実験を回したと説明し、Hacker Newsでは本当の進歩が agent の戦略なのか、インフラなのか、その両方なのかが議論になった。
2026年3月18日にLocalLLaMAで注目を集めたMamba-3は、Carnegie Mellon University、Princeton、Cartesia AI、Together AIの研究者が公開したstate space modelだ。設計目標をtraining speedからinference efficiencyへ移し、1.5B scaleでMamba-2やGated DeltaNet、Llama-3.2-1Bを上回るprefill+decode latencyを主張している。
r/MachineLearning の project post が、Apple の MLX stack を Unsloth 互換に近い API で包む mlx-tune を紹介した。Apple Silicon Mac 上で SFT、DPO、GRPO、LoRA、vision-language fine-tuning を試したい開発者向けの実用的な bridge だ。
r/LocalLLaMA で 92 points と 25 comments を集めた Covenant-72B は、20+ の参加者が Bittensor blockchain 上の decentralized infrastructure を通じて 72B parameters の model を from scratch で学習した事例として注目された。重要なのは根拠の薄い性能誇張ではなく、permissionless collaborative training、SparseLoCo による通信削減、Apache 2.0 license、そして separate Chat variant という構成だ。
2026年3月15日に高い反応を集めたLocalLLaMA threadは、NVIDIA Nemotron model familyのlicense変更に注目した。現在のNVIDIA Nemotron Model Licenseを以前のOpen Model Licenseと比べると、communityが反応した理由は明快だ。以前のguardrail termination clauseとTrustworthy AIへの参照が見当たらなくなり、代わりにNOTICEベースのattribution構造が前面に出ている。
LocalLLaMAで広がったGreenBoostは、limited vRAM問題を回避しようとするexperimentalなLinux kernel moduleだ。2026年3月14日のPhoronix記事によれば、このGPLv2 projectはkernel moduleとCUDA shimを組み合わせ、大きなallocationをon-card vRAMの外にあるpinned system RAMとNVMe tierへ逃がしつつ、CUDA applicationの修正なしにより大きなLLM workloadを走らせることを狙っている。
Together AIはMarch 13, 2026にOpen Deep Research v2をfully free & open sourceとして公開した。併せて公開されたblogは、multi-hop web research向けのplannerとself-reflection workflow、そしてcodeとevaluation assetを説明している。
Show HNに出たnahは、blanketなallow-or-denyではなくtool callの実際の効果を分類するPreToolUse hookを提案した。READMEはpath check、content inspection、optional LLM escalationを強調し、HN discussionはsandboxing、command chain、policy engineが本当にagentic toolを抑えられるのかに集中した。
Hacker News discussionは、CodeSpeakをLLM向けの新しいlanguageというheadline以上のものとして検証した。projectはgenerated codeではなくcompactなspecを保守すべきだと主張する一方、HN commentersはdeterminism、provider lock-in、そしてlanguageなのかorchestration workflowなのかを問い直した。