r/LocalLLaMA, M1 Pro에서 Qwen 3.5 9B를 실제 로컬 agent로 시험하다

많은 추천을 받은 r/LocalLLaMA 글은 꽤 유용한 종류의 benchmark를 보여줬다. leaderboard 스크린샷이 아니라, Qwen 3.5 9B를 consumer급 Apple hardware 위 실제 agent workflow에 넣었을 때 어떤 일이 벌어졌는지를 설명하는 보고였기 때문이다. 작성자는 테스트 머신이 workstation이 아니라 16GB unified memory를 가진 일반 M1 Pro MacBook이라고 밝혔고, 목표 역시 chat demo가 아니라 실제 task routing이 가능한지 확인하는 것이었다.

설정은 의도적으로 단순했다. 글에서는 Ollama로 qwen3.5:9b를 내려받아 실행한 뒤, 기존 agent system을 Ollama의 OpenAI-compatible API인 localhost:11434에 연결했다. 이 지점이 중요한 이유는 전환 비용이 낮기 때문이다. 이미 OpenAI format을 전제로 하는 도구라면, code 수정 없이 local Qwen 인스턴스를 끼워 넣을 수 있다. 링크된 긴 글에서도 작성자는 raw benchmark parity보다 바로 이 점을 더 중요한 변화로 본다.

성능 평가는 과장보다 절제가 앞섰다. 작성자에 따르면 Qwen 3.5 9B는 memory recall 성격의 작업에서 꽤 잘 동작했다. agent가 structured file을 읽고, 관련 context를 찾고, 구체적인 답을 돌려주는 흐름에서는 충분히 실용적이었다는 것이다. 또한 단순한 요청에 대한 tool calling도 대체로 제대로 작동했다고 적었다. agent workflow에서는 문장 품질만큼이나, 아니 그보다 더, 적절한 tool을 고르고 제한된 loop 안에서 안정적으로 움직이는지가 중요하다는 점을 생각하면 의미 있는 관찰이다.

한계도 분명하게 적었다. creative writing, synthesis, 더 복잡한 reasoning에서는 top-tier cloud model과의 격차가 눈에 띄었다. 글은 이를 숨기지 않는다. 대신 주장은 다른 곳에 있다. 모든 agent task가 Opus급 reasoning을 필요로 하지는 않으며, 일상적인 automation workload 중 상당 부분은 frontier model 담론이 전제하는 것보다 훨씬 단순하다는 것이다.

작성자는 실험을 mobile hardware로도 확장했다. 링크된 글에서는 PocketPal AI를 사용해 iPhone 17 Pro에서 Qwen 0.8B와 2B를 실행한 뒤, airplane mode로 전환해도 모델이 계속 완전히 offline으로 응답했다고 설명한다. 이 부분은 당장 desktop agent를 대체한다는 의미보다는, 개인용 하드웨어가 privacy-friendly하고 항상 사용 가능한 local inference의 문턱을 넘기 시작했다는 신호에 가깝다.

이 Reddit 글이 가치 있는 이유는 framing이 실무적이기 때문이다. 이는 controlled evaluation이 아니며 그렇게 읽어서는 안 된다. 그러나 이미 agent system을 굴리고 있는 사용자가 9B급 local model이 실제로 맡을 수 있는 업무 범위를 보여줬다는 점은 중요하다. memory lookup, formatting, 짧은 summary, 간단한 tool-mediated task 정도를 로컬로 흡수할 수 있다면, 비용·privacy·fallback strategy를 고민하는 builder에게는 또 하나의 benchmark chart보다 훨씬 직접적인 시사점을 준다.

r/LocalLLaMA, M1 Pro에서 Qwen 3.5 9B를 실제 로컬 agent로 시험하다

Related Articles

Ollama, Apple Silicon용 MLX 기반 미리보기 공개

Ollama, Apple Silicon용 MLX preview 공개... 로컬 LLM 처리 속도 대폭 개선

Qwen3.6에 LocalLLaMA가 들뜬 이유: benchmark보다 agent가 고치는 모습이었다

Comments (0)

Leave a Comment

Related Articles

Ollama, Apple Silicon용 MLX 기반 미리보기 공개
LLM Hacker News Apr 1, 2026 1 min read

Ollama, Apple Silicon용 MLX preview 공개... 로컬 LLM 처리 속도 대폭 개선
LLM Hacker News Mar 31, 2026 1 min read

Qwen3.6에 LocalLLaMA가 들뜬 이유: benchmark보다 agent가 고치는 모습이었다
LLM Reddit Apr 20, 2026 1 min read