Liquid AIのブラウザ推論デモをLocalLLaMAが注目した理由
Original: Liquid AI's LFM2-24B-A2B running at ~50 tokens/second in a web browser on WebGPU View original →
LocalLLaMAで79 pointsと11 commentsを集めた理由は、このpostがlocal LLMのいくつかの重要トレンドを一つのdemoにまとめて見せたからだ。sparse model、ONNX packaging、WebGPU runtime、そしてconsumer hardware上での効率的な inferenceが一度に現れている。最初に注目を集めたのはReddit投稿の性能主張で、投稿者はLiquid AIのLFM2-24B-A2BがM4 Maxのbrowser上でおよそ50 tokens per second、より小さい8B A1B variantは100 tokens per secondを超えると述べている。
公式資料を見ると、なぜこのdemoが面白いのかがよく分かる。Liquid AIはLFM2-MoEを、total 24B parametersだがtokenごとのactive parametersは約2Bに抑えたMixture of Experts modelとして説明している。ONNX export pageによれば、64 expertsのうち4 expertsがtokenごとにactivatedされ、より大きなdense modelに近い表現力を保ちながら、実際のcomputeはactive pathに寄せる設計だ。recommendedなQ4F16 variantは約13GB、FP16 variantは約44GBとされている。
この組み合わせが重要なのは、browser inferenceがこれまでずっと、もっと小さなmodelか、ずっと遅いspeedのshowcaseとして扱われがちだったからだ。ところがHugging Face Spaceのdemoとdownload可能な ONNX artifactsが揃うと、会話は「面白いprototype」から「この形で現実に何が動かせるのか」へ移る。Reddit threadもまさにそこに反応していた。WebGPUとsparse architectureの組み合わせが、browser-based local AIをnoveltyではなく本当のdeployment targetにできるのか、という問いだ。
実務上の意味は、すべての24B modelが突然tabの中で簡単に動くようになったということではない。architecture design、export format、runtime engineeringがうまく噛み合うと、local inferenceのusable frontierが着実に外側へ広がるということだ。private assistant、interactive demo、on-device toolingを作るdevelopersにとって重要なのは、単なるparameter braggingではない。どのpackagingとruntimeの組み合わせがeveryday hardwareで体感できる使いやすさを生むのかが、いまやmodel choiceと同じくらい重要になっている。
Original sources: Hugging Face Space, LiquidAI ONNX model card
Related Articles
反応は「ブラウザだけでローカルLLM」という手軽さと、WebGPU、モデルの正体、制限条件への補足に分かれた。
Liquid AIがLFM2.5 8B-A1Bを発表。M5 Maxで毎秒253トークン、モバイルで30トークン、H100で18,500トークンの推論速度を達成し、同サイズの密なモデルを凌駕する性能を示した。
LocalLLaMAが反応したのは、demoの分かりやすさだった。約290MBの1.7B Bonsai modelがWebGPUでbrowser内に走る。同じthreadはすぐにtokens per second、hallucination、llama.cpp support、そして1-bit modelがnarrow task以外で使えるのかを確認しにいった。
Comments (0)
No comments yet. Be the first to comment!