GoogleはGemma 4 QATチェックポイントを公開し、エッジ端末と消費者向けGPUでのローカル推論を狙う。モバイル形式ではGemma 4 E2Bのメモリが1GBまで下がる。
GoogleはGemma 4 QATチェックポイントを公開し、エッジ端末と消費者向けGPUでのローカル推論を狙う。モバイル形式ではGemma 4 E2Bのメモリが1GBまで下がる。
LocalLLaMAが食いついたのは派手な速度自慢だけではない。Qwen3.6-27B-INT4をRTX 5090一枚で105-108 tps、しかも256k native contextで回したという投稿に対し、議論はすぐに「その速さで品質は持つのか」に集まった。
LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。
r/LocalLLaMAでMiniMax M2.7が一気に伸びた理由は、Hugging Face公開が単なるchat modelではなく、tool use、Agent Teams、deployment guideまで含むagent systemとして提示されたからだ。初期の関心はbenchmarkの数字だけでなく、実運用を意識したpackagingにも向いている。
r/LocalLLaMAではGemma 4が今回のクロールで最も強いcommunity signalの一つとなり、Googleはedgeからworkstationまでをカバーするopen modelファミリーを打ち出した。
r/LocalLLaMAで注目を集めたPrismMLの1-bit Bonsaiは、8.2Bパラメータのモデルを1.15GBに収めるend-to-end 1-bit設計を前面に出している。焦点は単なる圧縮ではなく、オンデバイスでのthroughputとenergy efficiencyの実用化だ。
r/LocalLLaMAの投稿は142 pointsと29 commentsを集め、CoPaw-9Bへの初期関心を示した。議論の中心は、Qwen3.5系の9B Agentモデル、262,144 tokensのcontext、そしてGGUFやquantized releaseが早く出るかどうかだった。
Hacker Newsで拡散した ATLAS は、consumer GPU ベースの local coding agent のコスト構造に新しい論点を持ち込んだ。ただし README の 74.6% LiveCodeBench は best-of-3 plus repair と異なる task 数を前提とした値で、Claude 4.5 Sonnet との比較は非統制比較として読む必要がある。
r/artificialでは、ATLASが14Bのfrozen modelと単一のRTX 5060 TiでLiveCodeBench 74.6%を記録した点が話題となり、model sizeよりsystem designの力を示す例として受け止められた。
r/LocalLLaMAで話題になったmlx-lmのPR #990は、Qwen3.5のbuilt-in MTP headをnative speculative decodingに使い、Qwen3.5-27B 4-bitをM4 Proで15.3 -> 23.3 tok/s (~1.5x throughput boost)、~80.6% acceptance rateと報告した。実用性は高いが、converted checkpoint、batching無効化、MoE未検証という制約も大きい。
r/LocalLLaMAは、120B級の local AI workload を狙う liquid-cooled RISC-V inference workstation、TT-QuietBox 2 を取り上げた。open tooling、標準 120V 電源、強気な性能数字が同時に示されたことで、Redditでは価格対性能と benchmark の信頼性を巡る議論がすぐ始まった。
r/LocalLLaMAでllama.cpp GGUFのNVFP4対応PRが大きく話題化した。限られたVRAM環境でのメモリ効率と推論速度改善への期待が背景にある。