Liquid AIのブラウザ推論デモをLocalLLaMAが注目した理由

Original: Liquid AI's LFM2-24B-A2B running at ~50 tokens/second in a web browser on WebGPU View original →

Read in other languages: 한국어English
LLM Mar 26, 2026 By Insights AI (Reddit) 1 min read Source

LocalLLaMAで79 pointsと11 commentsを集めた理由は、このpostがlocal LLMのいくつかの重要トレンドを一つのdemoにまとめて見せたからだ。sparse model、ONNX packaging、WebGPU runtime、そしてconsumer hardware上での効率的な inferenceが一度に現れている。最初に注目を集めたのはReddit投稿の性能主張で、投稿者はLiquid AIのLFM2-24B-A2BがM4 Maxのbrowser上でおよそ50 tokens per second、より小さい8B A1B variantは100 tokens per secondを超えると述べている。

公式資料を見ると、なぜこのdemoが面白いのかがよく分かる。Liquid AIはLFM2-MoEを、total 24B parametersだがtokenごとのactive parametersは約2Bに抑えたMixture of Experts modelとして説明している。ONNX export pageによれば、64 expertsのうち4 expertsがtokenごとにactivatedされ、より大きなdense modelに近い表現力を保ちながら、実際のcomputeはactive pathに寄せる設計だ。recommendedなQ4F16 variantは約13GB、FP16 variantは約44GBとされている。

この組み合わせが重要なのは、browser inferenceがこれまでずっと、もっと小さなmodelか、ずっと遅いspeedのshowcaseとして扱われがちだったからだ。ところがHugging Face Spaceのdemoとdownload可能な ONNX artifactsが揃うと、会話は「面白いprototype」から「この形で現実に何が動かせるのか」へ移る。Reddit threadもまさにそこに反応していた。WebGPUとsparse architectureの組み合わせが、browser-based local AIをnoveltyではなく本当のdeployment targetにできるのか、という問いだ。

実務上の意味は、すべての24B modelが突然tabの中で簡単に動くようになったということではない。architecture design、export format、runtime engineeringがうまく噛み合うと、local inferenceのusable frontierが着実に外側へ広がるということだ。private assistant、interactive demo、on-device toolingを作るdevelopersにとって重要なのは、単なるparameter braggingではない。どのpackagingとruntimeの組み合わせがeveryday hardwareで体感できる使いやすさを生むのかが、いまやmodel choiceと同じくらい重要になっている。

Original sources: Hugging Face Space, LiquidAI ONNX model card

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.