Azureは2026-03-14のX投稿で、Claude Opus 4.6とSonnet 4.6の1M token context、flat pricing、600 image/PDF page入力対応を打ち出した。MicrosoftとAnthropicの公式文書は、その主要条件が実運用向けに整っていることを裏づけている。
LLM
最近の r/LocalLLaMA で注目された投稿は、コミュニティがすでに 400 以上の model について約 1万件の Apple Silicon benchmark を提出したと述べている。重要なのは、散発的な体感談ではなく、M-series chip と context length ごとの傾向を比較できる shared dataset が立ち上がり始めた点だ。
最近の r/LocalLLaMA の benchmark 投稿は、Apple Silicon 上で MLX と llama.cpp を比べるときに単純な tok/s の数字だけでは本質を見誤ると指摘した。MLX は短い context の generation では依然として速いが、長い context の workload では prefill が全体レイテンシを支配し、体感差が大きく縮む可能性がある。
OpenAIは2026年3月5日、GPT-5.4をChatGPT、API、Codexで順次提供すると発表した。GPT-5.3-Codexのcoding能力を本流のreasoning modelに統合し、native computer useとCodexでのexperimental 1M context supportを打ち出している。
2026年3月13日のHacker Newsスレッドは、Anthropicによる Claude Opus 4.6 と Sonnet 4.6 の 1M context GA 更新、特に long-context premium 廃止に注目した。今回の更新では media limit が 600 images または PDF pages まで拡大され、Claude Code の Max・Team・Enterprise にも 1M context が組み込まれた。
Googleは2026年2月4日、Developer Knowledge APIとオープンソースのMCP Serverを発表した。内部ドキュメント、ADR、コードスニペット、公開URLなどのチーム知識をGemini Code AssistやAI agent workflowへつなぎやすくする狙いがある。
Andrej Karpathy は autoresearch によって nanochat の Time to GPT-2 が 2.02 hours から 1.80 hours に下がったと述べた。agent が約2日で約700件の変更を探索し、約20件の additive improvement を見つけたという説明だが、この結果は独立監査済み benchmark ではなく source claim として読む必要がある。
Redditのスレッドで arXiv 論文 2603.10145 が共有され、この論文は language model の output layer が単なる softmax expressivity の問題ではなく、gradient norm の 95〜99% を抑圧する optimization bottleneck だと主張している。議論は、より良い head 設計が LLM 学習効率を大きく変え得るかに集中した。
r/MachineLearningの高反応スレッドは、proprietary model が毎月変わり古い version が消える中で、benchmark 論文に何が残るのかを問うた。もっとも支持された見方は、ranking はすぐ古くなる一方で、dataset や failure case は長く使える eval asset になり得るというものだった。
Perceptaは2026年3月11日の投稿で、transformer 内部に computer を構築し、arbitrary C program を数百万 step 実行し、2D attention head で inference を指数的に高速化できると主張した。HNの読者は刺激的な研究方向として受け止めつつも、より明確な説明、benchmark、拡張性の根拠を求めた。
CanIRun.aiはWebGL、WebGPU、navigator APIを使ってbrowser内でGPU、CPU、RAMを検出し、どの quantized model が手元の machine に合うかを推定する。HNでは発想を歓迎する声が多かった一方、欠けている hardware 項目、保守的な推定値、model 起点の逆引き機能を求める声も出た。
NVIDIAは2026年3月11日、120B parameter級の open model Nemotron 3 Super を発表した。NVIDIAは、1M-token context、hybrid MoE architecture、最大5倍の throughput により、agentic AI の context explosion と thinking tax を抑えると説明している。