LocalLLaMA, Qwen3.5-35B-A3B 에이전트 코딩 성능 공유: 100+ t/s 보고
Original: Qwen3.5-35B-A3B is a gamechanger for agentic coding. View original →
커뮤니티에서 무엇이 공유됐나
r/LocalLLaMA의 고득점 게시글은 Qwen3.5-35B-A3B를 로컬 환경에서 agentic coding에 적용한 체험을 상세히 공유했다. 작성자는 headless Linux + 단일 RTX 3090 환경에서 llama.cpp 서버를 구성해 테스트했고, 약 22GB VRAM 사용과 100 tokens/s 이상 처리량을 보고했다.
원문에는 실행 커맨드와 주요 파라미터가 포함됐다. 특히 긴 context 설정(-c 131072), quant 관련 옵션(-ctk q8_0, -ctv q8_0), 그리고 MXFP4 기반 모델 파일을 사용했다는 점이 강조됐다.
보고된 성능 포인트
- 작성자 주장: 로컬 오픈 웨이트 모델 중 처음으로 본인 코딩 테스트를 통과
- 속도 체감: 100+ tokens/s 수준, 과제별 소요 시간 단축
- 실전성 평가: 기존 클라우드 모델에 의존하던 워크플로를 일부 로컬로 대체 가능하다는 인상
다만 댓글 토론은 결과를 그대로 일반화하기 어렵다고 본다. 일부 사용자는 유사 세팅에서 높은 처리량을 재현했고, 다른 사용자는 기본적인 파일 편집 도구 사용에서 혼란을 경험했다고 보고했다. 즉 모델 품질 자체뿐 아니라 tool schema 크기, agent 프레임워크, quant 방식, 하드웨어 구성에 따라 체감 성능 편차가 크다는 논의가 이어졌다.
왜 중요한가
이 스레드의 의미는 “로컬 오픈 모델이 실제 코딩 워크플로에서 어디까지 올라왔는가”를 집단적으로 검증했다는 점이다. 단일 벤치마크 점수보다, 다양한 장비와 프레임워크에서의 재현성 논의가 빠르게 축적되고 있다는 점이 LocalLLaMA 커뮤니티의 강점으로 드러났다.
현재 단계에서 합리적인 해석은 다음과 같다. Qwen3.5-35B-A3B는 특정 세팅에서 매우 강한 코딩 생산성을 보여줄 수 있지만, 운영 안정성은 툴 체인 구성과 컨텍스트 설계까지 포함해 함께 최적화해야 한다. 즉 “모델 선택”만으로 끝나는 문제가 아니라 “로컬 에이전트 시스템 설계” 문제로 이동하고 있다는 신호다.
원문: Reddit post
참고 링크: Qwen3.5-35B-A3B model page
Related Articles
Hacker News에서 주목받은 Unsloth의 Qwen3.5 가이드는 27B와 35B-A3B를 포함한 로컬 실행 경로를 메모리 요구량, thinking 제어, llama.cpp 명령 중심으로 정리한다.
r/LocalLLaMA에서 주목받은 PSA는 Ollama나 LM Studio 같은 편의 레이어가 model behavior를 바꿀 수 있으므로, 새 모델 평가는 먼저 llama.cpp, transformers, vLLM, SGLang 같은 기본 런타임에서 해야 한다고 조언한다. 댓글에서도 핵심은 특정 툴 선호가 아니라 template, stop token, sampling, quantization을 고정한 재현성이라는 점이 강조됐다.
높은 점수를 받은 LocalLLaMA 글은 16GB M1 Pro에서 Qwen 3.5 9B가 memory recall과 기본 tool calling을 실제 agent 작업에 쓸 만큼 처리했지만, creative reasoning은 여전히 frontier model보다 뒤처졌다고 전했다.
Comments (0)
No comments yet. Be the first to comment!