Luce-OrgのオープンソースPFlashが128Kコンテキストでllama.cppに対して10倍のプリフィル高速化を実現。C++/CUDAのみで実装された投機的プリフィル手法で、RTX 3090での実測値を公開。
#inference
RSS FeedLocalLLaMAコミュニティメンバーが16台のDGX Sparkクラスターを構築し、200Gbpsファブリックで接続完了。統合メモリを活かしてDeepSeekやKimiの大規模モデル推論をテスト予定。
重要なのは、長文脈やedge-side agentを実際に回せるかどうかが結局kernel最適化で決まる場面が増えていることだ。QwenはFlashQLAがNVIDIA HopperでFLA Triton比の前方2〜3倍、逆伝播2倍を出したとしている。
LocalLLaMAの最初の反応はCPネタだったが、スレッドが残った理由は別にある。GDN chunked prefillでforward 2〜3倍、backward 2倍という具体的な数字が出ていて、long-contextとedge-sideのagentic inferenceに話が直結していたからだ。
LocalLLaMAがすぐ反応したのは、体感に直結する話だったからだ。小さなGBNF制約だけでQwen3.6のreasoning dragを減らし、長い作業のトークン浪費と時間をまとめて削ったという主張が出た。
重要なのは、FP8推論が品質崩壊を直せてこそ意味を持つことだ。vLLMは two-level accumulation の変更で、128k needle-in-a-haystack の精度を13%から89%まで戻しつつ、FP8 decode の速度優位を保ったと書いた。
Hacker Newsが反応したのは旅情ではなかった。バッテリーがほぼ1分1%で減り、筐体が膝でつらいほど熱くなり、長い文脈とagent loopがすぐ限界を見せるという現実のほうだった。
LocalLLaMAはこれを単なるベンチ画像として流さなかった。単一のRTX 3090でQwen3.6-27Bの処理量を平均1.98倍まで押し上げ、再学習なしで長文脈も支えるという主張がスレッドの熱源になっている。
LocalLLaMAがHipfireに反応したのは、新しいrepoが出たからではない。RDNA勢が長く待っていた「最初からAMD前提」のローカル推論スタックに見えたからだ。
重要なのは、model launchの成否がweightsだけでなくservingとtrainingの支援に左右されることだ。LMSYSはDay-0 stackでB200 199 tok/s、H200 266 tok/sを示し、900K contextでも落ち込みが小さいと書いた。
重要なのは、inference costがinfrastructure問題だけでなくproduct constraintになっている点だ。CohereはvLLMのW4A8 pathがHopper上でW4A16比TTFT最大58%、TPOT最大45%高速だと述べた。
HNがこのpostを面白がった理由は、Apple Silicon unified memoryでWasm sandboxとGPU bufferが本当に同じbytesを扱えるのかという実装上の境界だった。