부식 중

LocalLLaMA, Qwen3.5-35B-A3B 에이전트 코딩 성능 공유: 100+ t/s 보고

Original: Qwen3.5-35B-A3B is a gamechanger for agentic coding. View original →

Read in other languages: English日本語
LLM Feb 26, 2026 By Insights AI (Reddit) 1 min read 7 views Source

커뮤니티에서 무엇이 공유됐나

r/LocalLLaMA의 고득점 게시글은 Qwen3.5-35B-A3B를 로컬 환경에서 agentic coding에 적용한 체험을 상세히 공유했다. 작성자는 headless Linux + 단일 RTX 3090 환경에서 llama.cpp 서버를 구성해 테스트했고, 약 22GB VRAM 사용과 100 tokens/s 이상 처리량을 보고했다.

원문에는 실행 커맨드와 주요 파라미터가 포함됐다. 특히 긴 context 설정(-c 131072), quant 관련 옵션(-ctk q8_0, -ctv q8_0), 그리고 MXFP4 기반 모델 파일을 사용했다는 점이 강조됐다.

보고된 성능 포인트

  • 작성자 주장: 로컬 오픈 웨이트 모델 중 처음으로 본인 코딩 테스트를 통과
  • 속도 체감: 100+ tokens/s 수준, 과제별 소요 시간 단축
  • 실전성 평가: 기존 클라우드 모델에 의존하던 워크플로를 일부 로컬로 대체 가능하다는 인상

다만 댓글 토론은 결과를 그대로 일반화하기 어렵다고 본다. 일부 사용자는 유사 세팅에서 높은 처리량을 재현했고, 다른 사용자는 기본적인 파일 편집 도구 사용에서 혼란을 경험했다고 보고했다. 즉 모델 품질 자체뿐 아니라 tool schema 크기, agent 프레임워크, quant 방식, 하드웨어 구성에 따라 체감 성능 편차가 크다는 논의가 이어졌다.

왜 중요한가

이 스레드의 의미는 “로컬 오픈 모델이 실제 코딩 워크플로에서 어디까지 올라왔는가”를 집단적으로 검증했다는 점이다. 단일 벤치마크 점수보다, 다양한 장비와 프레임워크에서의 재현성 논의가 빠르게 축적되고 있다는 점이 LocalLLaMA 커뮤니티의 강점으로 드러났다.

현재 단계에서 합리적인 해석은 다음과 같다. Qwen3.5-35B-A3B는 특정 세팅에서 매우 강한 코딩 생산성을 보여줄 수 있지만, 운영 안정성은 툴 체인 구성과 컨텍스트 설계까지 포함해 함께 최적화해야 한다. 즉 “모델 선택”만으로 끝나는 문제가 아니라 “로컬 에이전트 시스템 설계” 문제로 이동하고 있다는 신호다.

원문: Reddit post
참고 링크: Qwen3.5-35B-A3B model page

Share: Long

Related Articles

LLM Reddit Mar 30, 2026 1 min read

2026년 3월 r/LocalLLaMA에서 126 points와 45 comments를 모은 글은 Qwen3.5-27B를 llama.cpp로 구동하고 OpenCode에 연결하는 실전 가이드를 조명했다. 이 글이 주목받은 이유는 quant 선택, chat-template 수정, VRAM 예산, Tailscale 네트워킹, tool-calling 동작처럼 로컬 coding 환경을 실제로 좌우하는 운영 디테일을 다뤘기 때문이다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.