r/LocalLLaMAが見たGraph-RAG、Llama 8Bでもmulti-hop QAで70Bに迫れる

2026年3月21日に投稿された r/LocalLLaMA のスレッド "Llama 8B matching 70B on multi-hop QA with structured prompting, no fine-tuning" は、March 22, 2026 時点で 86 upvotes と 7 comments を集めていた。投稿者は Graph RAG、具体的には KET-RAG の実験を要約し、retrieval 自体はかなり解けている一方で、accuracy を止めているのは reasoning だと述べる。gold answer は 77% から 91% の確率で retrieved context に入っていたが、間違いの 73% から 84% は reasoning failure だったという整理だ。

リンク先の arXiv 論文 "The Reasoning Bottleneck in Graph-RAG: Structured Prompting and Context Compression for Multi-Hop QA" は、この主張をより体系的に示している。論文は HotpotQA、MuSiQue、2WikiMultiHopQA を対象に、SPARQL chain-of-thought prompting と graph-walk compression の 2 つの augmentation を提案した。後者は追加の LLM call なしで context をおよそ 60% 圧縮する。さらに fully augmented な budget Llama-8B が、unaugmented Llama-70B baseline に匹敵または上回り、cost は約 12 倍低いと報告している。

retrieval coverage: gold answer は 77%〜91% で既に context に含まれる
error source: failure の 73%〜84% は reasoning 由来
augmentation: SPARQL chain-of-thought prompting と graph-walk compression
efficiency claim: augmented Llama-8B が plain 70B baseline に迫り、cost は約 12x 低い

この話が LocalLLaMA で重要なのは、改善対象を変えるからだ。retrieval が既に十分強いなら、次の一手は単純な model scaling ではないかもしれない。question decomposition、routing、context shaping を inference 時に工夫する方が、1 dollar あたりの改善が大きい可能性がある。open model を前提にしつつ、cost を抑えたい開発者には特に魅力的な方向だ。

もちろん慎重さは必要だ。benchmark 上の改善が、そのまま production の Graph-RAG に転写されるとは限らない。graph 構築の品質、question routing、domain-specific corpus の整備次第で結果は変わる。それでも今回の Reddit スレッドは、multi-hop QA の焦点が "more retrieval" から "reason better over retrieved context" へ移りつつあることをよく表している。

r/LocalLLaMAが見たGraph-RAG、Llama 8Bでもmulti-hop QAで70Bに迫れる

Related Articles

HNで議論された llm-circuit-finder: layer duplication は free upgrade ではなく capability steering

OpenAI、First Proof提出物を公開研究級数学問題10問すべてにproof attempt

OpenAI、GPT-5.4 Thinking・GPT-5.4 ProをChatGPT・API・Codexへ展開

Comments (0)

Leave a Comment

Related Articles

HNで議論された llm-circuit-finder: layer duplication は free upgrade ではなく capability steering

OpenAI、First Proof提出物を公開研究級数学問題10問すべてにproof attempt
OpenAIは2026年2月20日、First Proofの研究級数学問題10問すべてに対するproof attemptを公開した。会社はexpert feedbackの後、少なくとも5件は正しい可能性が高いと見ている一方、いくつかは審査中で、problem 2の試みは誤りだと判断した。

OpenAI、GPT-5.4 Thinking・GPT-5.4 ProをChatGPT・API・Codexへ展開