Skip to content

#inference

RSS Feed
LLM Reddit Mar 30, 2026 1 min read

3月1日にr/MachineLearningで注目を集めた比較投稿は、94件のLLM endpointを横断して、open modelがproprietary最上位にかなり近づいたと主張した。重要なのは順位そのものより、モデル選定が価格・速度・配備自由度まで含む運用判断へ変わったことだ。

LLM Reddit Mar 28, 2026 1 min read

2026年3月26日、Google CloudのB200 clusterでQwen 3.5 27Bをserveした事例を扱うr/LocalLLaMA投稿は、クロール時点で205 pointsと52 commentsを集めた。リンク先記事はtensor parallelismからdata parallelismへ切り替え、context lengthを縮め、FP8 KV cacheとMTP-1 speculative decodingを有効化することで、12 nodeで合計1,103,941 tokens per secondに達したと説明している。

LLM Reddit Mar 28, 2026 1 min read

2026年3月26日、NVIDIAの`gpt-oss-puzzle-88B`モデルカードを扱ったr/LocalLLaMA投稿は、クロール時点で284 pointsと105 commentsを集めた。NVIDIAはこの88B MoEモデルがPuzzle post-training NASを用いてparameter数とKV-cache負荷を削減しつつ、reasoning accuracyを親モデル並みかそれ以上に保つと説明している。

LLM X/Twitter Mar 26, 2026 1 min read

Vercelは2026年3月25日、AI Gateway向けCustom Reporting APIをProおよびEnterpriseプランでbeta提供すると発表した。ブログによれば、BYOKリクエストを含むAI Gatewayトラフィックのcost、token usage、request volumeを取得し、model、provider、user ID、tags、credential typeごとに分析できる。

LLM Hacker News Mar 26, 2026 1 min read

ngrokは2026-03-25公開のexplainerで、quantizationがLLMをroughly 4x smaller、2x fasterにでき、4-bitと8-bitのtrade-offをどう読むべきかを丁寧に整理した。Hacker Newsはこの投稿を247 pointsと46 commentsまで押し上げ、memory bottleneckとlocal inferenceのコスト構造をあらためて議論した。