r/LocalLLaMA、M1 ProでQwen 3.5 9Bを実際のローカルagentとして試す
Original: Ran Qwen 3.5 9B on M1 Pro (16GB) as an actual agent, not just a chat demo. Honest results. View original →
高い支持を集めた r/LocalLLaMA の投稿は、いわゆるleaderboard型ではない実務寄りのbenchmarkを示した。Qwen 3.5 9Bをconsumer向けApple hardware上の実際のagent workflowに入れたとき、何ができて何が難しかったかを具体的に書いているからだ。投稿者によれば、使ったのはworkstationではなく16GB unified memoryのM1 Pro MacBookで、目的もchat demoではなく、本当にtask routingに使えるかを確かめることだった。
セットアップは意図的にシンプルだ。投稿ではOllamaで qwen3.5:9b を取得して実行し、既存のagent systemをOllamaのOpenAI-compatible APIである localhost:11434 に向け替えたと説明している。ここが重要なのは切り替えコストが低い点で、すでにOpenAI formatを前提にしているツールならcode変更なしでローカルQwenを差し込める。リンク先の詳細記事でも、著者はraw benchmark parityよりこの実装のしやすさを大きな節目として扱っている。
能力面の評価は過度に煽るものではない。著者によると、Qwen 3.5 9Bはmemory recall系の作業、特にstructured fileを読み、必要なcontextを見つけ、具体的な答えを返すような処理では十分に機能したという。また、単純な依頼に対するtool callingも概ね信頼できたとされる。agent workflowではprose qualityそのものより、適切なtoolを選び、制約されたloopの中で安定して動けるかの方が重要な場面が多いため、この観察は実務的な意味を持つ。
一方で限界も明確だった。creative writing、synthesis、より複雑なreasoningでは、依然として上位のcloud modelとのギャップが目立ったと投稿者は書いている。そこを隠してはいない。むしろ主張の中心は別にあり、すべてのagent taskがOpus級のreasoningを必要とするわけではなく、日々のautomation workのかなりの部分はfrontier model前提の議論よりずっと単純だ、という点にある。
著者はこの実験をmobile hardwareにも広げている。リンクされた記事では、PocketPal AIを使ってiPhone 17 Pro上でQwen 0.8Bと2Bを走らせ、airplane modeに切り替えても完全にofflineで応答し続けることを確認したと述べている。これは今すぐdesktop agentを置き換える話というより、個人向けハードウェアがprivacy重視で常時利用可能なlocal inferenceの閾値を越え始めたことを示すシグナルとして読むべきだろう。
このReddit投稿が価値を持つのは、そのframingが非常に実務的だからだ。これはcontrolled evaluationではなく、そのように読むべきでもない。ただ、すでにagent systemを運用している人が、9Bクラスのlocal modelでどこまで実際の仕事を吸収できるかを示した点は大きい。memory lookup、formatting、短いsummary、単純なtool-mediated taskをローカルに寄せられるなら、cost、privacy、fallback strategyを考えるbuilderにとっては、また一枚benchmark chartを見るよりずっと具体的な材料になる。
Related Articles
Hacker Newsで注目されたUnslothのQwen3.5ガイドは、27Bや35B-A3Bをローカル環境で動かすためのメモリ要件、thinking制御、llama.cpp手順を実務向けにまとめている。
r/LocalLLaMAの投稿は、Mac usersをMarch 11, 2026にmergeされたllama.cpp pull request #20361へ導いた。このPRはfused GDN recurrent Metal kernelを追加し、Qwen 3.5系でおよそ12-36%のthroughput向上を示している。一方でReddit commentersは、changeはmasterに入ったが一部のlocal benchmarkではなおMLXが速い場合があると補足した。
r/LocalLLaMAで注目を集めた投稿は、llama-swapを使ってローカルLLMの多モデル運用を整理した具体例を共有。単一バイナリ、YAML設定、systemd運用、パラメータフィルタが実務上の利点として語られた。
Comments (0)
No comments yet. Be the first to comment!