LLM Hacker News 5h ago 1 min read
Liquid AI가 38조 토큰으로 학습한 8B-A1B MoE 모델 LFM2.5를 공개했다. M5 Max에서 초당 253토큰, 모바일에서 30토큰, H100에서 초당 1만 8500토큰의 추론 성능을 자랑하며 동급 밀집 모델을 상회한다.
Liquid AI가 38조 토큰으로 학습한 8B-A1B MoE 모델 LFM2.5를 공개했다. M5 Max에서 초당 253토큰, 모바일에서 30토큰, H100에서 초당 1만 8500토큰의 추론 성능을 자랑하며 동급 밀집 모델을 상회한다.
LocalLLaMA에서 화제가 된 LFM2.5-350M은 작은 범용 모델이 아니라 tool use와 structured output에 맞춘 350M edge model이라는 점에서 주목받았다. Liquid AI는 10T에서 28T token으로 pretraining을 늘리고 large-scale RL을 더했다고 설명한다.
LocalLLaMA의 한 post는 Liquid AI의 LFM2-24B-A2B가 M4 Max browser에서 약 50 tokens per second로 동작한다고 주장하며 79 points와 11 comments를 모았다. Community의 관심은 sparse MoE architecture, ONNX packaging, 그리고 WebGPU가 local AI deployment target을 어디까지 넓힐 수 있는지에 집중됐다.