RTX 3090 하나로 SimpleQA 95.7%: Qwen3.6-27B + 에이전틱 검색의 위력
Original: We are finally there: Qwen3.6-27B + agentic search; 95.7% SimpleQA on a single 3090, fully local View original →
95.7%의 의미
r/LocalLLaMA에 297점으로 공유된 이 결과는 RTX 3090(24GB) 단일 GPU로 완전 로컬 환경에서 SimpleQA 95.7%를 달성한 것이다. SimpleQA는 사실 정확성을 측정하는 OpenAI 벤치마크로 95% 이상은 클라우드 서비스 수준이다.
설정
- GPU: RTX 3090 (24GB)
- 모델: Qwen3.6:27b (Ollama)
- 전략: LangGraph 에이전트 + 병렬 서브토픽 분해
왜 중요한가
에이전틱 검색과 로컬 LLM의 결합으로 소비자용 GPU 하나로 클라우드급 정확도를 달성했다. 외부 API 없이도 고품질 Q&A 시스템을 구축할 수 있는 시대가 열리고 있다.
Related Articles
Qwen3.6-27B를 vLLM에서 agent loop로 돌리던 사용자들이 멈춤과 streaming tool call 오류에 예민하게 반응했다. nightly parser 수정은 작지만, 로컬 에이전트 운용에서는 체감이 큰 문제를 겨냥한다.
HN의 관심은 “로컬 LLM이 프런티어 모델을 대체했나”보다 “어떤 작업부터 로컬로 내려올 수 있나”에 모였다. Gemma 4와 Qwen 계열을 둘러싼 체감 성능, 비용, 프라이버시 논의가 한꺼번에 붙었다.
LocalLLaMA에서 Qwen3.6 35B A3B 모델이 업무 워크플로우를 바꿨다는 경험담이 화제입니다. Codex로 작업을 수행하고 과정을 스킬 문서로 기록해 pi 에이전트에 공급하는 방식으로 VPS 관리, PDF 변환 등을 자동화했습니다.