Liquid AIのブラウザ推論デモをLocalLLaMAが注目した理由

LocalLLaMAで79 pointsと11 commentsを集めた理由は、このpostがlocal LLMのいくつかの重要トレンドを一つのdemoにまとめて見せたからだ。sparse model、ONNX packaging、WebGPU runtime、そしてconsumer hardware上での効率的な inferenceが一度に現れている。最初に注目を集めたのはReddit投稿の性能主張で、投稿者はLiquid AIのLFM2-24B-A2BがM4 Maxのbrowser上でおよそ50 tokens per second、より小さい8B A1B variantは100 tokens per secondを超えると述べている。

公式資料を見ると、なぜこのdemoが面白いのかがよく分かる。Liquid AIはLFM2-MoEを、total 24B parametersだがtokenごとのactive parametersは約2Bに抑えたMixture of Experts modelとして説明している。ONNX export pageによれば、64 expertsのうち4 expertsがtokenごとにactivatedされ、より大きなdense modelに近い表現力を保ちながら、実際のcomputeはactive pathに寄せる設計だ。recommendedなQ4F16 variantは約13GB、FP16 variantは約44GBとされている。

この組み合わせが重要なのは、browser inferenceがこれまでずっと、もっと小さなmodelか、ずっと遅いspeedのshowcaseとして扱われがちだったからだ。ところがHugging Face Spaceのdemoとdownload可能な ONNX artifactsが揃うと、会話は「面白いprototype」から「この形で現実に何が動かせるのか」へ移る。Reddit threadもまさにそこに反応していた。WebGPUとsparse architectureの組み合わせが、browser-based local AIをnoveltyではなく本当のdeployment targetにできるのか、という問いだ。

実務上の意味は、すべての24B modelが突然tabの中で簡単に動くようになったということではない。architecture design、export format、runtime engineeringがうまく噛み合うと、local inferenceのusable frontierが着実に外側へ広がるということだ。private assistant、interactive demo、on-device toolingを作るdevelopersにとって重要なのは、単なるparameter braggingではない。どのpackagingとruntimeの組み合わせがeveryday hardwareで体感できる使いやすさを生むのかが、いまやmodel choiceと同じくらい重要になっている。

Original sources: Hugging Face Space, LiquidAI ONNX model card

Liquid AIのブラウザ推論デモをLocalLLaMAが注目した理由

Related Articles

Chrome内の小さなGemini Nano、LocalLLaMAが実行条件を検証

Liquid AI、38Tトークン学習のMoEモデルLFM2.5を公開

ブラウザで290MBの1-bit LLM、LocalLLaMAは驚きつつ性能を見た

Comments (0)

Leave a Comment

Related Articles

Chrome内の小さなGemini Nano、LocalLLaMAが実行条件を検証

Liquid AI、38Tトークン学習のMoEモデルLFM2.5を公開
Liquid AIがLFM2.5 8B-A1Bを発表。M5 Maxで毎秒253トークン、モバイルで30トークン、H100で18,500トークンの推論速度を達成し、同サイズの密なモデルを凌駕する性能を示した。

ブラウザで290MBの1-bit LLM、LocalLLaMAは驚きつつ性能を見た
LLM Reddit Apr 16, 2026 1 min read