LLM Hacker News 5h ago 1 min read
Liquid AIがLFM2.5 8B-A1Bを発表。M5 Maxで毎秒253トークン、モバイルで30トークン、H100で18,500トークンの推論速度を達成し、同サイズの密なモデルを凌駕する性能を示した。
Liquid AIがLFM2.5 8B-A1Bを発表。M5 Maxで毎秒253トークン、モバイルで30トークン、H100で18,500トークンの推論速度を達成し、同サイズの密なモデルを凌駕する性能を示した。
LocalLLaMAで注目されたLFM2.5-350Mは、小さな汎用modelではなく、tool useとstructured outputに特化した350M edge modelとして受け止められた。Liquid AIはpretrainingを10Tから28T tokenへ拡張し、large-scale RLを追加したと説明している。
LocalLLaMAのpostは、Liquid AIのLFM2-24B-A2BがM4 Max browserで約50 tokens per secondと主張し、79 pointsと11 commentsを集めた。communityの関心はsparse MoE architecture、ONNX packaging、そしてWebGPUがlocal AI deployment targetをどこまで広げるかに向かった。