r/LocalLLaMA, M1 Pro에서 Qwen 3.5 9B를 실제 로컬 agent로 시험하다

Original: Ran Qwen 3.5 9B on M1 Pro (16GB) as an actual agent, not just a chat demo. Honest results. View original →

Read in other languages: English日本語
LLM Mar 10, 2026 By Insights AI (Reddit) 2 min read 1 views Source

많은 추천을 받은 r/LocalLLaMA 글은 꽤 유용한 종류의 benchmark를 보여줬다. leaderboard 스크린샷이 아니라, Qwen 3.5 9B를 consumer급 Apple hardware 위 실제 agent workflow에 넣었을 때 어떤 일이 벌어졌는지를 설명하는 보고였기 때문이다. 작성자는 테스트 머신이 workstation이 아니라 16GB unified memory를 가진 일반 M1 Pro MacBook이라고 밝혔고, 목표 역시 chat demo가 아니라 실제 task routing이 가능한지 확인하는 것이었다.

설정은 의도적으로 단순했다. 글에서는 Ollama로 qwen3.5:9b를 내려받아 실행한 뒤, 기존 agent system을 Ollama의 OpenAI-compatible API인 localhost:11434에 연결했다. 이 지점이 중요한 이유는 전환 비용이 낮기 때문이다. 이미 OpenAI format을 전제로 하는 도구라면, code 수정 없이 local Qwen 인스턴스를 끼워 넣을 수 있다. 링크된 긴 글에서도 작성자는 raw benchmark parity보다 바로 이 점을 더 중요한 변화로 본다.

성능 평가는 과장보다 절제가 앞섰다. 작성자에 따르면 Qwen 3.5 9B는 memory recall 성격의 작업에서 꽤 잘 동작했다. agent가 structured file을 읽고, 관련 context를 찾고, 구체적인 답을 돌려주는 흐름에서는 충분히 실용적이었다는 것이다. 또한 단순한 요청에 대한 tool calling도 대체로 제대로 작동했다고 적었다. agent workflow에서는 문장 품질만큼이나, 아니 그보다 더, 적절한 tool을 고르고 제한된 loop 안에서 안정적으로 움직이는지가 중요하다는 점을 생각하면 의미 있는 관찰이다.

한계도 분명하게 적었다. creative writing, synthesis, 더 복잡한 reasoning에서는 top-tier cloud model과의 격차가 눈에 띄었다. 글은 이를 숨기지 않는다. 대신 주장은 다른 곳에 있다. 모든 agent task가 Opus급 reasoning을 필요로 하지는 않으며, 일상적인 automation workload 중 상당 부분은 frontier model 담론이 전제하는 것보다 훨씬 단순하다는 것이다.

작성자는 실험을 mobile hardware로도 확장했다. 링크된 글에서는 PocketPal AI를 사용해 iPhone 17 Pro에서 Qwen 0.8B와 2B를 실행한 뒤, airplane mode로 전환해도 모델이 계속 완전히 offline으로 응답했다고 설명한다. 이 부분은 당장 desktop agent를 대체한다는 의미보다는, 개인용 하드웨어가 privacy-friendly하고 항상 사용 가능한 local inference의 문턱을 넘기 시작했다는 신호에 가깝다.

이 Reddit 글이 가치 있는 이유는 framing이 실무적이기 때문이다. 이는 controlled evaluation이 아니며 그렇게 읽어서는 안 된다. 그러나 이미 agent system을 굴리고 있는 사용자가 9B급 local model이 실제로 맡을 수 있는 업무 범위를 보여줬다는 점은 중요하다. memory lookup, formatting, 짧은 summary, 간단한 tool-mediated task 정도를 로컬로 흡수할 수 있다면, 비용·privacy·fallback strategy를 고민하는 builder에게는 또 하나의 benchmark chart보다 훨씬 직접적인 시사점을 준다.

Share:

Related Articles

LLM Reddit 14h ago 1 min read

r/LocalLLaMA 게시글은 Mac 사용자를 March 11, 2026에 merge된 llama.cpp pull request #20361로 이끌었다. 이 PR은 fused GDN recurrent Metal kernel을 추가하며, Qwen 3.5 계열에서 대략 12-36% throughput 향상을 제시한다. Reddit commenters는 change가 master에는 들어갔지만 일부 local benchmark에서는 여전히 MLX가 더 빠를 수 있다고 덧붙였다.

LLM Reddit 5d ago 2 min read

r/LocalLLaMA에서 주목받은 PSA는 Ollama나 LM Studio 같은 편의 레이어가 model behavior를 바꿀 수 있으므로, 새 모델 평가는 먼저 llama.cpp, transformers, vLLM, SGLang 같은 기본 런타임에서 해야 한다고 조언한다. 댓글에서도 핵심은 특정 툴 선호가 아니라 template, stop token, sampling, quantization을 고정한 재현성이라는 점이 강조됐다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.