LLM Reddit Mar 26, 2026 1 min read
LocalLLaMAのpostは、Liquid AIのLFM2-24B-A2BがM4 Max browserで約50 tokens per secondと主張し、79 pointsと11 commentsを集めた。communityの関心はsparse MoE architecture、ONNX packaging、そしてWebGPUがlocal AI deployment targetをどこまで広げるかに向かった。
LocalLLaMAのpostは、Liquid AIのLFM2-24B-A2BがM4 Max browserで約50 tokens per secondと主張し、79 pointsと11 commentsを集めた。communityの関心はsparse MoE architecture、ONNX packaging、そしてWebGPUがlocal AI deployment targetをどこまで広げるかに向かった。
2026年3月19日にHacker Newsへ投稿されたKitten TTSスレッドは、クロール時点で512ポイントと172件のコメントを集めた。KittenMLは15M、40M、80MのONNX音声合成モデル、8つのEnglish voice、24kHz出力、CPU推論を前面に出している。
Kitten TTS v0.8は、CPUで動く15Mから80MのONNX音声モデルとしてHacker Newsで注目を集め、実運用性や学習データへの質問も呼び込んだ。
r/MachineLearningの投稿は、同じ重み・同じONNX export条件でも、Snapdragon 5機種でオンデバイス精度が91.8%から71.2%まで広がったと報告した。