LLM Reddit Mar 6, 2026 1 min read
r/LocalLLaMAで共有されたFlashAttention-4は、B200 BF16で最大1605 TFLOPs/sを報告し、Blackwell世代のメモリ/SFU制約を前提にした新しいattention最適化を示した。
r/LocalLLaMAで共有されたFlashAttention-4は、B200 BF16で最大1605 TFLOPs/sを報告し、Blackwell世代のメモリ/SFU制約を前提にした新しいattention最適化を示した。
NVIDIAは2026年2月12日、主要推論プロバイダーがBlackwell上のopen-sourceモデル運用でtoken costを大幅に下げていると発表した。記事では医療、ゲーム、企業サポートの具体的な運用指標が示されている。
NVIDIAは2026年2月18日、IndiaAI Missionに沿った協業計画を公表した。GPUインフラ増強、Nemotron/NeMoによる主権AIモデル開発、研究支援とスタートアップ投資を並行して進める構成が示されている。
NVIDIAは2026年2月17日、MetaがGB300 NVL72、RTX PROサーバー、Spectrum-X、Mission Controlを活用してAIインフラを拡張すると発表した。大規模Hopper運用の実績を踏まえ、Blackwell世代への本格展開が進む構図だ。
NVIDIAは2026年2月16日、GB300 NVL72の推論指標を公開し、Hopper比で最大50倍のthroughput-per-megawattと最大35倍のトークンコスト低減を示した。Microsoft、CoreWeave、OCIでの導入も合わせて公表している。