r/LocalLLaMAが見たGraph-RAG、Llama 8Bでもmulti-hop QAで70Bに迫れる
Original: Llama 8B matching 70B on multi-hop QA with structured prompting, no fine-tuning View original →
2026年3月21日に投稿された r/LocalLLaMA のスレッド "Llama 8B matching 70B on multi-hop QA with structured prompting, no fine-tuning" は、March 22, 2026 時点で 86 upvotes と 7 comments を集めていた。投稿者は Graph RAG、具体的には KET-RAG の実験を要約し、retrieval 自体はかなり解けている一方で、accuracy を止めているのは reasoning だと述べる。gold answer は 77% から 91% の確率で retrieved context に入っていたが、間違いの 73% から 84% は reasoning failure だったという整理だ。
リンク先の arXiv 論文 "The Reasoning Bottleneck in Graph-RAG: Structured Prompting and Context Compression for Multi-Hop QA" は、この主張をより体系的に示している。論文は HotpotQA、MuSiQue、2WikiMultiHopQA を対象に、SPARQL chain-of-thought prompting と graph-walk compression の 2 つの augmentation を提案した。後者は追加の LLM call なしで context をおよそ 60% 圧縮する。さらに fully augmented な budget Llama-8B が、unaugmented Llama-70B baseline に匹敵または上回り、cost は約 12 倍低いと報告している。
- retrieval coverage: gold answer は 77%〜91% で既に context に含まれる
- error source: failure の 73%〜84% は reasoning 由来
- augmentation: SPARQL chain-of-thought prompting と graph-walk compression
- efficiency claim: augmented Llama-8B が plain 70B baseline に迫り、cost は約 12x 低い
この話が LocalLLaMA で重要なのは、改善対象を変えるからだ。retrieval が既に十分強いなら、次の一手は単純な model scaling ではないかもしれない。question decomposition、routing、context shaping を inference 時に工夫する方が、1 dollar あたりの改善が大きい可能性がある。open model を前提にしつつ、cost を抑えたい開発者には特に魅力的な方向だ。
もちろん慎重さは必要だ。benchmark 上の改善が、そのまま production の Graph-RAG に転写されるとは限らない。graph 構築の品質、question routing、domain-specific corpus の整備次第で結果は変わる。それでも今回の Reddit スレッドは、multi-hop QA の焦点が "more retrieval" から "reason better over retrieved context" へ移りつつあることをよく表している。
Related Articles
重要なのは、GPT-5.5 launch直後に出た最初期のexternal benchmark readoutのひとつだという点だ。Artificial AnalysisはIntelligence Indexで3点差首位とした一方、指数実行コストは約20%高くなったと述べた。
Show HNで注目された llm-circuit-finder は、training や weight changes なしで layer routing だけで reasoning を押し上げられると主張する。ただし README の全体 benchmark は IFEval/MBPP と平均値の悪化も示しており、これは universal improvement というより capability steering と見る方が妥当だ。
text-generation-webuiが「TextGen」に改名し、Windows・Linux・macOS対応のインストール不要なネイティブデスクトップアプリとして生まれ変わった。LM Studioと同様のElectron構成だが、完全オープンソースという点が大きな違い。