Microsoftは2026-01-26にMaia 200(コードネームBraga)を発表した。CopilotおよびAzure AIの一部ワークロードで、Maia 100比最大1.7倍の性能向上を示した。
#inference
RSS FeedAI Feb 19, 2026 1 min read
LLM Feb 19, 2026 1 min read
NVIDIAは2026年2月12日、主要推論プロバイダーがBlackwell上のopen-sourceモデル運用でtoken costを大幅に下げていると発表した。記事では医療、ゲーム、企業サポートの具体的な運用指標が示されている。
AI Feb 17, 2026 1 min read
NVIDIAは2026年2月16日、GB300 NVL72の推論指標を公開し、Hopper比で最大50倍のthroughput-per-megawattと最大35倍のトークンコスト低減を示した。Microsoft、CoreWeave、OCIでの導入も合わせて公表している。
LLM Hacker News Feb 16, 2026 1 min read
Hacker Newsで注目された投稿は、AnthropicとOpenAIのfast modeを比較し、LLMの体感速度を決める要因がモデル性能だけでなく推論基盤設計にあることを示した。
LLM Reddit Feb 15, 2026 1 min read
r/LocalLLaMAで注目された投稿は、llama.cpp PR #19375のマージを共有し、Qwen3Next推論の速度向上を検証した。PR本文のベンチマークとコミュニティ計測の双方で、copy削減によるt/s改善が確認されている。
LLM Reddit Feb 15, 2026 1 min read
r/LocalLLaMAで注目された投稿は、llama.cpp PR #19375のマージを共有し、Qwen3Next推論の速度向上を検証した。PR本文のベンチマークとコミュニティ計測の双方で、copy削減によるt/s改善が確認されている。
AI Feb 13, 2026 1 min read
NVIDIAが次世代AIプラットフォームRubinを発表。Blackwell比で推論トークンコスト10倍削減、MoEモデル訓練GPU数4倍削減を達成し、2026年下半期リリース予定。