LocalLLaMA, Qwen3.5-35B-A3B 에이전트 코딩 성능 공유: 100+ t/s 보고

커뮤니티에서 무엇이 공유됐나

r/LocalLLaMA의 고득점 게시글은 Qwen3.5-35B-A3B를 로컬 환경에서 agentic coding에 적용한 체험을 상세히 공유했다. 작성자는 headless Linux + 단일 RTX 3090 환경에서 llama.cpp 서버를 구성해 테스트했고, 약 22GB VRAM 사용과 100 tokens/s 이상 처리량을 보고했다.

원문에는 실행 커맨드와 주요 파라미터가 포함됐다. 특히 긴 context 설정(-c 131072), quant 관련 옵션(-ctk q8_0, -ctv q8_0), 그리고 MXFP4 기반 모델 파일을 사용했다는 점이 강조됐다.

보고된 성능 포인트

작성자 주장: 로컬 오픈 웨이트 모델 중 처음으로 본인 코딩 테스트를 통과
속도 체감: 100+ tokens/s 수준, 과제별 소요 시간 단축
실전성 평가: 기존 클라우드 모델에 의존하던 워크플로를 일부 로컬로 대체 가능하다는 인상

다만 댓글 토론은 결과를 그대로 일반화하기 어렵다고 본다. 일부 사용자는 유사 세팅에서 높은 처리량을 재현했고, 다른 사용자는 기본적인 파일 편집 도구 사용에서 혼란을 경험했다고 보고했다. 즉 모델 품질 자체뿐 아니라 tool schema 크기, agent 프레임워크, quant 방식, 하드웨어 구성에 따라 체감 성능 편차가 크다는 논의가 이어졌다.

왜 중요한가

이 스레드의 의미는 “로컬 오픈 모델이 실제 코딩 워크플로에서 어디까지 올라왔는가”를 집단적으로 검증했다는 점이다. 단일 벤치마크 점수보다, 다양한 장비와 프레임워크에서의 재현성 논의가 빠르게 축적되고 있다는 점이 LocalLLaMA 커뮤니티의 강점으로 드러났다.

현재 단계에서 합리적인 해석은 다음과 같다. Qwen3.5-35B-A3B는 특정 세팅에서 매우 강한 코딩 생산성을 보여줄 수 있지만, 운영 안정성은 툴 체인 구성과 컨텍스트 설계까지 포함해 함께 최적화해야 한다. 즉 “모델 선택”만으로 끝나는 문제가 아니라 “로컬 에이전트 시스템 설계” 문제로 이동하고 있다는 신호다.

원문: Reddit post
참고 링크: Qwen3.5-35B-A3B model page

LocalLLaMA, Qwen3.5-35B-A3B 에이전트 코딩 성능 공유: 100+ t/s 보고

커뮤니티에서 무엇이 공유됐나

보고된 성능 포인트

왜 중요한가

Related Articles

RTX 4070 12GB에서 35B 모델 110 tok/s — ik_llama.cpp 최적화 효과

r/LocalLLaMA, Qwen3.5 27B를 local inference의 sweet spot으로 평가

r/LocalLLaMA, Qwen3.5-27B를 llama.cpp와 OpenCode에 붙이는 실전 구성 주목

Related Articles

RTX 4070 12GB에서 35B 모델 110 tok/s — ik_llama.cpp 최적화 효과
LLM Reddit May 22, 2026 1 min read

r/LocalLLaMA, Qwen3.5 27B를 local inference의 sweet spot으로 평가
LLM Reddit Apr 8, 2026 1 min read

r/LocalLLaMA, Qwen3.5-27B를 llama.cpp와 OpenCode에 붙이는 실전 구성 주목
LLM Reddit Mar 30, 2026 1 min read