Hacker NewsでApple Silicon向けオンデバイス音声AIスタックが浮上

HNスレッドが押し出した主張

YC W26の創業者SanchitとShubhamはLaunch HNでMetalRTとRCLIを一体のプロダクトとして紹介した。主張の中心は明快だ。Apple Silicon上でSTT、LLM推論、TTS、ローカル文書検索までを1つのオンデバイス経路にまとめ、クラウドAPIなしでも実用的な応答速度を出せるという点である。RCLIのREADMEも「Talk to your Mac, query your docs, no cloud required」と説明しており、単なるベンチマークではなく実際の利用体験まで含めて見せようとしている。

HN投稿が目を引いたのは、性能値をかなり具体的に示しているからだ。投稿によればM4 Max 64 GBで rcli bench により再現できる数値として、Qwen3-0.6Bは658 tok/s、Qwen3-4Bは186 tok/s、LFM2.5-1.2Bは570 tok/sを記録したという。さらにtime-to-first-token 6.6 ms、70秒音声のSTTが101 ms、TTS合成が178 msとも述べている。これらはllama.cpp、Apple MLX、sherpa-onnxとの比較として提示されており、ローカルAIが本当に速いのかという論点に正面から答えようとしている。

製品として見ると何が重要か

RCLIは38個のmacOS actionを音声またはテキストで実行できると説明している。
READMEは5K+ chunkに対して約4 ms retrievalのローカルRAGを掲げている。
MetalRTはApple Silicon向けのLLM・STT・TTS共通GPUランタイムとして位置付けられている。
M1/M2ではllama.cppへfallbackし、最良経路はM3以降を前提としている。

この構成がHNで意味を持つのは、音声AIがもっとも厳しいローカル推論の試金石だからだ。STT、LLM、TTSは直列につながるため、どこか1段でも遅いと体験全体が崩れる。Launch HNの説明は、その累積遅延をcustom Metal shader、事前確保メモリ、単一エンジン設計で抑えたと主張している。公開リポジトリでもsub-200ms end-to-end latency、100% local inference、hot-swappable models、ローカルactionが前面に置かれている。

もちろん制約もある。オープンなのはRCLI側で、MetalRT自体はproprietary licenseだ。また最良性能は新しいApple Siliconに強く依存している。だからこのスレッドは単なるCLI公開ではなく、privacyとvertical optimizationを優先したローカルAIスタックがどこまで説得力を持てるかを問う実地テストとして読むのが近い。

Source: RunAnywhereAI/RCLI. Community discussion: Hacker News thread.

Hacker NewsでApple Silicon向けオンデバイス音声AIスタックが浮上

HNスレッドが押し出した主張

製品として見ると何が重要か

Related Articles

Hacker Newsが注目したApple Silicon向けRunAnywhereのローカルVoice AIスタック

LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告

r/LocalLLaMA、M5 MaxでQwen3.5-397Bを20.34 tok/sまで伸ばしたautoresearchを共有

Comments (0)

Leave a Comment

Related Articles

Hacker Newsが注目したApple Silicon向けRunAnywhereのローカルVoice AIスタック
LLM Hacker News Mar 11, 2026 1 min read

LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告
LLM Reddit Apr 11, 2026 1 min read

r/LocalLLaMA、M5 MaxでQwen3.5-397Bを20.34 tok/sまで伸ばしたautoresearchを共有
LLM Reddit Mar 30, 2026 1 min read