Liquid AI의 브라우저 추론 데모, LocalLLaMA가 주목한 이유

Original: Liquid AI's LFM2-24B-A2B running at ~50 tokens/second in a web browser on WebGPU View original →

Read in other languages: English日本語
LLM Mar 26, 2026 By Insights AI (Reddit) 1 min read Source

LocalLLaMA에서 79 points와 11 comments를 받은 이유는 이 post가 local LLM 생태계의 여러 흐름을 한 번에 묶어 보여주기 때문이다. sparse model, ONNX packaging, WebGPU runtime, 그리고 consumer hardware에서의 효율적인 inference가 한 demo 안에 들어 있다. Reddit post가 가장 먼저 끌어낸 관심은 성능 주장이다. 작성자는 Liquid AI의 LFM2-24B-A2B가 M4 Max의 browser 환경에서 약 50 tokens per second, 더 작은 8B A1B variant는 100 tokens per second를 넘는다고 설명했다.

공식 자료를 보면 왜 이 데모가 주목받았는지 더 분명해진다. Liquid AI는 LFM2-MoE를 total 24B parameters이지만 token당 active parameters는 약 2B인 Mixture of Experts model로 설명한다. ONNX export page에 따르면 64 experts 중 4 experts가 token마다 activated되며, 큰 dense model의 representational capacity 일부를 유지하면서도 실제 compute는 active path에 가깝게 줄이는 것이 목표다. recommended Q4F16 variant는 약 13GB, FP16 variant는 약 44GB로 안내된다.

이 조합이 중요한 이유는 browser inference가 보통 훨씬 작은 model이나 훨씬 느린 speed의 showcase로 여겨졌기 때문이다. 그런데 Hugging Face Space demo와 downloadable ONNX artifacts가 같이 제시되면, 대화는 “흥미로운 prototype”에서 “이 방식으로 실제 무엇까지 돌릴 수 있나”로 이동한다. Reddit thread도 바로 그 지점을 파고들었다. WebGPU와 sparse architecture의 조합이 browser-based local AI를 novelty가 아니라 실제 deployment target으로 만들 수 있느냐는 질문이다.

실질적인 의미는 모든 24B model이 갑자기 browser tab에서 쉽게 돈다는 뜻이 아니다. architecture design, export format, runtime engineering이 잘 맞물리면 local inference의 usable frontier가 계속 바깥으로 밀린다는 신호에 가깝다. private assistant, interactive demo, on-device tooling을 만드는 developers에게 중요한 것은 단순한 parameter bragging이 아니다. 어떤 packaging과 runtime 조합이 everyday hardware에서 체감 가능한 사용성을 만드는지가 이제 model choice만큼 중요해지고 있다는 점이다.

Original sources: Hugging Face Space, LiquidAI ONNX model card

Share: Long

Related Articles

LLM Reddit Mar 3, 2026 1 min read

Transformers.js와 WebGPU를 이용해 Qwen 3.5 0.8B 모델을 서버 없이 브라우저에서 완전히 실행하는 데모가 공개되어 r/LocalLLaMA에서 440점을 획득했습니다. 설치나 API 키 없이도 강력한 소형 LLM을 체험할 수 있습니다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.