Liquid AI의 브라우저 추론 데모, LocalLLaMA가 주목한 이유
Original: Liquid AI's LFM2-24B-A2B running at ~50 tokens/second in a web browser on WebGPU View original →
LocalLLaMA에서 79 points와 11 comments를 받은 이유는 이 post가 local LLM 생태계의 여러 흐름을 한 번에 묶어 보여주기 때문이다. sparse model, ONNX packaging, WebGPU runtime, 그리고 consumer hardware에서의 효율적인 inference가 한 demo 안에 들어 있다. Reddit post가 가장 먼저 끌어낸 관심은 성능 주장이다. 작성자는 Liquid AI의 LFM2-24B-A2B가 M4 Max의 browser 환경에서 약 50 tokens per second, 더 작은 8B A1B variant는 100 tokens per second를 넘는다고 설명했다.
공식 자료를 보면 왜 이 데모가 주목받았는지 더 분명해진다. Liquid AI는 LFM2-MoE를 total 24B parameters이지만 token당 active parameters는 약 2B인 Mixture of Experts model로 설명한다. ONNX export page에 따르면 64 experts 중 4 experts가 token마다 activated되며, 큰 dense model의 representational capacity 일부를 유지하면서도 실제 compute는 active path에 가깝게 줄이는 것이 목표다. recommended Q4F16 variant는 약 13GB, FP16 variant는 약 44GB로 안내된다.
이 조합이 중요한 이유는 browser inference가 보통 훨씬 작은 model이나 훨씬 느린 speed의 showcase로 여겨졌기 때문이다. 그런데 Hugging Face Space demo와 downloadable ONNX artifacts가 같이 제시되면, 대화는 “흥미로운 prototype”에서 “이 방식으로 실제 무엇까지 돌릴 수 있나”로 이동한다. Reddit thread도 바로 그 지점을 파고들었다. WebGPU와 sparse architecture의 조합이 browser-based local AI를 novelty가 아니라 실제 deployment target으로 만들 수 있느냐는 질문이다.
실질적인 의미는 모든 24B model이 갑자기 browser tab에서 쉽게 돈다는 뜻이 아니다. architecture design, export format, runtime engineering이 잘 맞물리면 local inference의 usable frontier가 계속 바깥으로 밀린다는 신호에 가깝다. private assistant, interactive demo, on-device tooling을 만드는 developers에게 중요한 것은 단순한 parameter bragging이 아니다. 어떤 packaging과 runtime 조합이 everyday hardware에서 체감 가능한 사용성을 만드는지가 이제 model choice만큼 중요해지고 있다는 점이다.
Original sources: Hugging Face Space, LiquidAI ONNX model card
Related Articles
Transformers.js와 WebGPU를 이용해 Qwen 3.5 0.8B 모델을 서버 없이 브라우저에서 완전히 실행하는 데모가 공개되어 r/LocalLLaMA에서 440점을 획득했습니다. 설치나 API 키 없이도 강력한 소형 LLM을 체험할 수 있습니다.
r/LocalLLaMA의 고신호 benchmark 글은 Qwen 3.5 27B를 mainline llama.cpp에서 ik_llama.cpp로 바꾸자 Blackwell RTX PRO 4000에서 prompt evaluation이 약 43 tok/sec에서 1,122 tok/sec로 뛰었고, generation도 7.5 tok/sec에서 26 tok/sec로 올라갔다고 전했다.
r/LocalLLaMA의 새 스레드는 NVIDIA의 Nemotron-Cascade-2-30B-A3B가 중형 Qwen 3.5 계열보다 더 강한 coding 결과를 낼 수 있다고 주장하며 주목을 끌었다. community benchmark와 NVIDIA의 model card를 함께 보면, local inference 비용과 reasoning 성능 사이의 새로운 균형점을 찾으려는 흐름이 읽힌다.
Comments (0)
No comments yet. Be the first to comment!