r/LocalLLaMA가 본 Graph-RAG, Llama 8B도 multi-hop QA에서 70B에 근접할 수 있다

Original: Llama 8B matching 70B on multi-hop QA with structured prompting, no fine-tuning View original →

Read in other languages: English日本語
LLM Mar 22, 2026 By Insights AI (Reddit) 1 min read Source

2026년 3월 21일 게시된 r/LocalLLaMA 글 "Llama 8B matching 70B on multi-hop QA with structured prompting, no fine-tuning"은 March 22, 2026 기준 86 upvotes와 7 comments를 기록했다. 게시글은 Graph RAG, 정확히는 KET-RAG 기반 실험을 요약하면서, retrieval은 이미 상당 부분 해결됐지만 reasoning이 여전히 정확도를 막고 있다고 주장한다. 작성자는 gold answer가 retrieved context 안에 77%에서 91% 비율로 이미 들어 있었지만, 실제 오류의 73%에서 84%는 reasoning failure였다고 정리했다.

링크된 arXiv 논문 "The Reasoning Bottleneck in Graph-RAG: Structured Prompting and Context Compression for Multi-Hop QA"도 같은 메시지를 더 정교하게 뒷받침한다. 논문은 HotpotQA, MuSiQue, 2WikiMultiHopQA 세 benchmark에서 KET-RAG를 평가했고, SPARQL chain-of-thought prompting과 graph-walk compression 두 가지 보강 기법을 제안했다. 후자는 추가 LLM call 없이 context를 약 60% 압축하며, 논문은 fully augmented Llama-8B가 plain Llama-70B baseline을 matched or exceeded하고 cost는 약 12배 낮았다고 설명한다.

  • retrieval coverage: gold answer가 context에 77%~91% 포함
  • error source: 오류의 73%~84%가 reasoning failure
  • 보강 기법: SPARQL chain-of-thought prompting, graph-walk compression
  • 효율 주장: augmented Llama-8B가 unaugmented 70B baseline에 근접 혹은 상회, cost는 약 12배 절감

이 결과가 r/LocalLLaMA에서 중요한 이유는 model scaling만이 성능 향상의 유일한 수단이 아니라는 점을 보여주기 때문이다. retrieval이 이미 충분히 강하다면, 다음 개선 포인트는 더 큰 vector store도, 더 큰 base model도 아니라 질문 분해 방식과 context 구조화일 수 있다. 즉 smaller open model이라도 inference-time orchestration만 잘하면 훨씬 큰 model과 경쟁할 수 있다는 뜻이다.

물론 benchmark에서 통하는 방법이 production workload 전반에 그대로 적용된다고 단정할 수는 없다. question routing, graph quality, domain-specific knowledge base 성숙도에 따라 결과는 달라질 수 있다. 그럼에도 이 스레드는 Graph-RAG 논의가 "retrieve more"에서 "reason better with what is already retrieved"로 이동하고 있음을 상징적으로 보여준다.

Share: Long

Related Articles

LLM Hacker News 11h ago 2 min read

Hacker News에서 화제가 된 llm-circuit-finder는 training 없이 layer routing만으로 reasoning score를 끌어올릴 수 있다고 주장한다. 하지만 README의 전체 benchmark는 IFEval/MBPP와 평균 점수 하락도 보여 주며, 이 접근은 universal improvement보다 capability steering으로 보는 편이 더 타당하다.

LLM sources.twitter 6d ago 1 min read

OpenAI는 2026년 3월 5일 X에서 GPT-5.4 Thinking의 Chain-of-Thought controllability가 낮다고 밝혔다. 이는 현재 기준으로 CoT monitoring이 여전히 유효한 안전 장치일 수 있다는 메시지와 함께 공개됐다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.