r/LocalLLaMAが見たGraph-RAG、Llama 8Bでもmulti-hop QAで70Bに迫れる

Original: Llama 8B matching 70B on multi-hop QA with structured prompting, no fine-tuning View original →

Read in other languages: 한국어English
LLM Mar 22, 2026 By Insights AI (Reddit) 1 min read Source

2026年3月21日に投稿された r/LocalLLaMA のスレッド "Llama 8B matching 70B on multi-hop QA with structured prompting, no fine-tuning" は、March 22, 2026 時点で 86 upvotes と 7 comments を集めていた。投稿者は Graph RAG、具体的には KET-RAG の実験を要約し、retrieval 自体はかなり解けている一方で、accuracy を止めているのは reasoning だと述べる。gold answer は 77% から 91% の確率で retrieved context に入っていたが、間違いの 73% から 84% は reasoning failure だったという整理だ。

リンク先の arXiv 論文 "The Reasoning Bottleneck in Graph-RAG: Structured Prompting and Context Compression for Multi-Hop QA" は、この主張をより体系的に示している。論文は HotpotQA、MuSiQue、2WikiMultiHopQA を対象に、SPARQL chain-of-thought prompting と graph-walk compression の 2 つの augmentation を提案した。後者は追加の LLM call なしで context をおよそ 60% 圧縮する。さらに fully augmented な budget Llama-8B が、unaugmented Llama-70B baseline に匹敵または上回り、cost は約 12 倍低いと報告している。

  • retrieval coverage: gold answer は 77%〜91% で既に context に含まれる
  • error source: failure の 73%〜84% は reasoning 由来
  • augmentation: SPARQL chain-of-thought prompting と graph-walk compression
  • efficiency claim: augmented Llama-8B が plain 70B baseline に迫り、cost は約 12x 低い

この話が LocalLLaMA で重要なのは、改善対象を変えるからだ。retrieval が既に十分強いなら、次の一手は単純な model scaling ではないかもしれない。question decomposition、routing、context shaping を inference 時に工夫する方が、1 dollar あたりの改善が大きい可能性がある。open model を前提にしつつ、cost を抑えたい開発者には特に魅力的な方向だ。

もちろん慎重さは必要だ。benchmark 上の改善が、そのまま production の Graph-RAG に転写されるとは限らない。graph 構築の品質、question routing、domain-specific corpus の整備次第で結果は変わる。それでも今回の Reddit スレッドは、multi-hop QA の焦点が "more retrieval" から "reason better over retrieved context" へ移りつつあることをよく表している。

Share: Long

Related Articles

LLM Hacker News 11h ago 1 min read

Show HNで注目された llm-circuit-finder は、training や weight changes なしで layer routing だけで reasoning を押し上げられると主張する。ただし README の全体 benchmark は IFEval/MBPP と平均値の悪化も示しており、これは universal improvement というより capability steering と見る方が妥当だ。

LLM sources.twitter 7h ago 1 min read

OpenAIは2026年3月5日、GPT-5.4 ThinkingとGPT-5.4 ProをChatGPTへ順次展開し、GPT-5.4をAPIとCodexでも提供すると発表した。OpenAIの公式紹介ページは、GPT-5.4をreasoning・coding・native computer use・長期agent workflowを一つに束ねたfrontier modelとして位置づけている。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.