GoogleはGemma 4 QATチェックポイントを公開し、エッジ端末と消費者向けGPUでのローカル推論を狙う。モバイル形式ではGemma 4 E2Bのメモリが1GBまで下がる。
GoogleはGemma 4 QATチェックポイントを公開し、エッジ端末と消費者向けGPUでのローカル推論を狙う。モバイル形式ではGemma 4 E2Bのメモリが1GBまで下がる。
Liquid AIがLFM2.5 8B-A1Bを発表。M5 Maxで毎秒253トークン、モバイルで30トークン、H100で18,500トークンの推論速度を達成し、同サイズの密なモデルを凌駕する性能を示した。
LocalLLaMAは1.58-bit modelの約束に反応したが、threadはすぐに厳しい問いへ向かった。比較相手がquantized Qwen peersではなくfull-precision baselineなら公平なのか。
宇宙data centerはまだ未来の言葉に近いが、宇宙inferenceはもう事業の形を取り始めている。Keplerのclusterは10基の衛星にNvidia Orin 40基を載せ、顧客18社を得て、space computeをpitch deckの外へ引き出した。
AI siliconへの投資熱がdata center大手の外まで広がるかを測る場面が来た。Reutersによれば、韓国のDeepXは国内上場の準備に入り、2026年前半のfunding round完了後にIPO主幹事を選び、その先のU.S. listingも視野に入れている。
LocalLLaMA のデモ投稿は、Gemma 4 E2B で speech と vision を理解し、Kokoro で text-to-speech を行う Parlor を紹介した。README では Apple M3 Pro 上で end-to-end latency 約 2.5-3.0 秒、decode speed 約 83 tokens/sec とされている。
RedditではGoogleのGemma 4 edge展開が注目され、on-device Agent SkillsとLiteRT-LM runtimeが話題になった。1.5GB未満のmemory、128K context、Raspberry Pi 5とQualcomm NPUのbenchmarkが主要ポイントだ。
Googleは2026年4月2日、Gemma 4を自社で最も強力なopen model familyだと発表し、Gemini 3と同じ技術基盤から構築されたと説明した。GoogleはE2B、E4B、26B MoE、31B Denseを用意し、function-calling、structured JSON output、最大256K context、Apache 2.0 licenseを提供するとしている。
r/LocalLLaMAの反応は、PrismML Bonsai の発表が単なる compression headline 以上に受け止められていることを示している。会社の end-to-end 1-bit 設計の主張と、実際の利用者が感じた使い勝手の改善が同時に語られている。
LocalLLaMAで注目されたLFM2.5-350Mは、小さな汎用modelではなく、tool useとstructured outputに特化した350M edge modelとして受け止められた。Liquid AIはpretrainingを10Tから28T tokenへ拡張し、large-scale RLを追加したと説明している。
Hacker Newsに投稿されたPrism MLの1-Bit Bonsaiは、1.15GBの8B modelからiPhone級の1.7B modelまでを掲げ、1-bit weightでedge inference economicsを作り替えようとしている。焦点はparameter countではなく、intelligence densityとhardware fitにある。
r/LocalLLaMAで注目を集めたPrismMLの1-bit Bonsaiは、8.2Bパラメータのモデルを1.15GBに収めるend-to-end 1-bit設計を前面に出している。焦点は単なる圧縮ではなく、オンデバイスでのthroughputとenergy efficiencyの実用化だ。