r/LocalLLaMA、M1 ProでQwen 3.5 9Bを実際のローカルagentとして試す
Original: Ran Qwen 3.5 9B on M1 Pro (16GB) as an actual agent, not just a chat demo. Honest results. View original →
高い支持を集めた r/LocalLLaMA の投稿は、いわゆるleaderboard型ではない実務寄りのbenchmarkを示した。Qwen 3.5 9Bをconsumer向けApple hardware上の実際のagent workflowに入れたとき、何ができて何が難しかったかを具体的に書いているからだ。投稿者によれば、使ったのはworkstationではなく16GB unified memoryのM1 Pro MacBookで、目的もchat demoではなく、本当にtask routingに使えるかを確かめることだった。
セットアップは意図的にシンプルだ。投稿ではOllamaで qwen3.5:9b を取得して実行し、既存のagent systemをOllamaのOpenAI-compatible APIである localhost:11434 に向け替えたと説明している。ここが重要なのは切り替えコストが低い点で、すでにOpenAI formatを前提にしているツールならcode変更なしでローカルQwenを差し込める。リンク先の詳細記事でも、著者はraw benchmark parityよりこの実装のしやすさを大きな節目として扱っている。
能力面の評価は過度に煽るものではない。著者によると、Qwen 3.5 9Bはmemory recall系の作業、特にstructured fileを読み、必要なcontextを見つけ、具体的な答えを返すような処理では十分に機能したという。また、単純な依頼に対するtool callingも概ね信頼できたとされる。agent workflowではprose qualityそのものより、適切なtoolを選び、制約されたloopの中で安定して動けるかの方が重要な場面が多いため、この観察は実務的な意味を持つ。
一方で限界も明確だった。creative writing、synthesis、より複雑なreasoningでは、依然として上位のcloud modelとのギャップが目立ったと投稿者は書いている。そこを隠してはいない。むしろ主張の中心は別にあり、すべてのagent taskがOpus級のreasoningを必要とするわけではなく、日々のautomation workのかなりの部分はfrontier model前提の議論よりずっと単純だ、という点にある。
著者はこの実験をmobile hardwareにも広げている。リンクされた記事では、PocketPal AIを使ってiPhone 17 Pro上でQwen 0.8Bと2Bを走らせ、airplane modeに切り替えても完全にofflineで応答し続けることを確認したと述べている。これは今すぐdesktop agentを置き換える話というより、個人向けハードウェアがprivacy重視で常時利用可能なlocal inferenceの閾値を越え始めたことを示すシグナルとして読むべきだろう。
このReddit投稿が価値を持つのは、そのframingが非常に実務的だからだ。これはcontrolled evaluationではなく、そのように読むべきでもない。ただ、すでにagent systemを運用している人が、9Bクラスのlocal modelでどこまで実際の仕事を吸収できるかを示した点は大きい。memory lookup、formatting、短いsummary、単純なtool-mediated taskをローカルに寄せられるなら、cost、privacy、fallback strategyを考えるbuilderにとっては、また一枚benchmark chartを見るよりずっと具体的な材料になる。
Related Articles
Ollamaが2026年3月30日にApple Silicon向けのMLX previewを公開した。MLX、NVFP4、改良されたcacheを組み合わせ、prefillとdecodeの両方を高速化したとしてHacker Newsでも注目を集めた。
2026年3月31日にHacker Newsで上位に入ったOllamaのMLX発表は、Apple Siliconでのローカルcoding agent性能を押し上げる試みだ。MLX、NVFP4、改良されたcache戦略を組み合わせ、macOS上のローカル推論ボトルネックを減らすことを狙っている。
r/LocalLLaMAが900 points超まで反応した理由はscore表ではない。local coding agentがcanvas bugとwave completion issueを見つけて直したという使用感だった。
Comments (0)
No comments yet. Be the first to comment!