LocalLLaMAが見た本題は最高速ではなかった。RTX 3090一枚で218K文脈まで伸ばし、長いtool outputでも落ちにくくした構成が評価された。
#long-context
RSS FeedHNがDeepSeek V4に飛びついた理由はきれいな発表ページではなかった。表のリンクがAPI docsで、実際の重みとbaseモデルがすでにHugging Faceに並んでいたことが一気に火を付けた。
人気のr/LocalLLaMA threadは、Gemma 4の256k context windowで100k+ tokenの個人journalをローカル分析した事例を示し、privacyがon-device LLMを動かす実用的な理由になり得ることを示した。
r/LocalLLaMAのstress testでは、Gemma 4 26B A4Bがllama.cpp上で262,144 context windowの約94%でも一貫性を保ったと主張されている。正式なbenchmarkではないが、failure modeとtuning値をあわせて公開している点が実務的だ。
Together Researchは2026年3月27日、divide-and-conquerを使う小型モデルがlong-context taskでGPT-4o single-shotを上回りうると発表した。TogetherのブログとarXiv論文によれば、この方式はplanner-worker-manager構成とtask、model、aggregator noiseの分析に基づいている。
AnthropicはOpus 4.6とSonnet 4.6で1M contextをgeneral availabilityにし、long-context premiumなしで標準価格を適用すると発表した。Hacker Newsでは単なるspec更新より、実運用コストが変わる点に関心が集まった。
Azureは2026-03-14のX投稿で、Claude Opus 4.6とSonnet 4.6の1M token context、flat pricing、600 image/PDF page入力対応を打ち出した。MicrosoftとAnthropicの公式文書は、その主要条件が実運用向けに整っていることを裏づけている。
Hacker Newsで注目されたLoGeRは、Google DeepMindとUC Berkeleyによる長文脈3D再構成モデルで、hybrid memoryによって後処理最適化なしで非常に長い動画を扱うとする。
LocalLLaMAでQwen3.5-35B-A3Bのモデルカード共有が急拡大した。MoE構成、長いcontext、主要推論スタック対応が実運用観点で注目されている。