Liquid AIのブラウザ推論デモをLocalLLaMAが注目した理由
Original: Liquid AI's LFM2-24B-A2B running at ~50 tokens/second in a web browser on WebGPU View original →
LocalLLaMAで79 pointsと11 commentsを集めた理由は、このpostがlocal LLMのいくつかの重要トレンドを一つのdemoにまとめて見せたからだ。sparse model、ONNX packaging、WebGPU runtime、そしてconsumer hardware上での効率的な inferenceが一度に現れている。最初に注目を集めたのはReddit投稿の性能主張で、投稿者はLiquid AIのLFM2-24B-A2BがM4 Maxのbrowser上でおよそ50 tokens per second、より小さい8B A1B variantは100 tokens per secondを超えると述べている。
公式資料を見ると、なぜこのdemoが面白いのかがよく分かる。Liquid AIはLFM2-MoEを、total 24B parametersだがtokenごとのactive parametersは約2Bに抑えたMixture of Experts modelとして説明している。ONNX export pageによれば、64 expertsのうち4 expertsがtokenごとにactivatedされ、より大きなdense modelに近い表現力を保ちながら、実際のcomputeはactive pathに寄せる設計だ。recommendedなQ4F16 variantは約13GB、FP16 variantは約44GBとされている。
この組み合わせが重要なのは、browser inferenceがこれまでずっと、もっと小さなmodelか、ずっと遅いspeedのshowcaseとして扱われがちだったからだ。ところがHugging Face Spaceのdemoとdownload可能な ONNX artifactsが揃うと、会話は「面白いprototype」から「この形で現実に何が動かせるのか」へ移る。Reddit threadもまさにそこに反応していた。WebGPUとsparse architectureの組み合わせが、browser-based local AIをnoveltyではなく本当のdeployment targetにできるのか、という問いだ。
実務上の意味は、すべての24B modelが突然tabの中で簡単に動くようになったということではない。architecture design、export format、runtime engineeringがうまく噛み合うと、local inferenceのusable frontierが着実に外側へ広がるということだ。private assistant、interactive demo、on-device toolingを作るdevelopersにとって重要なのは、単なるparameter braggingではない。どのpackagingとruntimeの組み合わせがeveryday hardwareで体感できる使いやすさを生むのかが、いまやmodel choiceと同じくらい重要になっている。
Original sources: Hugging Face Space, LiquidAI ONNX model card
Related Articles
Transformers.jsとWebGPUを使用してQwen 3.5 0.8Bモデルをサーバーなしでブラウザ上で完全実行するデモがr/LocalLLaMAでスコア440を獲得しました。インストールもAPIキーも不要で、GPUアクセス可能な最新ブラウザだけで動作します。
r/LocalLLaMAの高シグナル benchmark 投稿は、Qwen 3.5 27Bをmainline llama.cppからik_llama.cppへ切り替えると、Blackwell RTX PRO 4000上でprompt evaluationが約43 tok/secから1,122 tok/secへ伸び、generationも7.5 tok/secから26 tok/secへ上がったと伝えた。
r/LocalLLaMA の新しいスレッドでは、NVIDIA の Nemotron-Cascade-2-30B-A3B が medium Qwen 3.5 系より強い coding 結果を出せるとして注目を集めた。community benchmark と NVIDIA の model card を並べると、local inference のコストと reasoning 性能の新しい折り合いが見えてくる。
Comments (0)
No comments yet. Be the first to comment!