r/LocalLLaMAが見たGraph-RAG、Llama 8Bでもmulti-hop QAで70Bに迫れる
Original: Llama 8B matching 70B on multi-hop QA with structured prompting, no fine-tuning View original →
2026年3月21日に投稿された r/LocalLLaMA のスレッド "Llama 8B matching 70B on multi-hop QA with structured prompting, no fine-tuning" は、March 22, 2026 時点で 86 upvotes と 7 comments を集めていた。投稿者は Graph RAG、具体的には KET-RAG の実験を要約し、retrieval 自体はかなり解けている一方で、accuracy を止めているのは reasoning だと述べる。gold answer は 77% から 91% の確率で retrieved context に入っていたが、間違いの 73% から 84% は reasoning failure だったという整理だ。
リンク先の arXiv 論文 "The Reasoning Bottleneck in Graph-RAG: Structured Prompting and Context Compression for Multi-Hop QA" は、この主張をより体系的に示している。論文は HotpotQA、MuSiQue、2WikiMultiHopQA を対象に、SPARQL chain-of-thought prompting と graph-walk compression の 2 つの augmentation を提案した。後者は追加の LLM call なしで context をおよそ 60% 圧縮する。さらに fully augmented な budget Llama-8B が、unaugmented Llama-70B baseline に匹敵または上回り、cost は約 12 倍低いと報告している。
- retrieval coverage: gold answer は 77%〜91% で既に context に含まれる
- error source: failure の 73%〜84% は reasoning 由来
- augmentation: SPARQL chain-of-thought prompting と graph-walk compression
- efficiency claim: augmented Llama-8B が plain 70B baseline に迫り、cost は約 12x 低い
この話が LocalLLaMA で重要なのは、改善対象を変えるからだ。retrieval が既に十分強いなら、次の一手は単純な model scaling ではないかもしれない。question decomposition、routing、context shaping を inference 時に工夫する方が、1 dollar あたりの改善が大きい可能性がある。open model を前提にしつつ、cost を抑えたい開発者には特に魅力的な方向だ。
もちろん慎重さは必要だ。benchmark 上の改善が、そのまま production の Graph-RAG に転写されるとは限らない。graph 構築の品質、question routing、domain-specific corpus の整備次第で結果は変わる。それでも今回の Reddit スレッドは、multi-hop QA の焦点が "more retrieval" から "reason better over retrieved context" へ移りつつあることをよく表している。
Related Articles
Show HNで注目された llm-circuit-finder は、training や weight changes なしで layer routing だけで reasoning を押し上げられると主張する。ただし README の全体 benchmark は IFEval/MBPP と平均値の悪化も示しており、これは universal improvement というより capability steering と見る方が妥当だ。
OpenAIは2026年2月20日、First Proofの研究級数学問題10問すべてに対するproof attemptを公開した。会社はexpert feedbackの後、少なくとも5件は正しい可能性が高いと見ている一方、いくつかは審査中で、problem 2の試みは誤りだと判断した。
OpenAIは2026年3月5日、GPT-5.4 ThinkingとGPT-5.4 ProをChatGPTへ順次展開し、GPT-5.4をAPIとCodexでも提供すると発表した。OpenAIの公式紹介ページは、GPT-5.4をreasoning・coding・native computer use・長期agent workflowを一つに束ねたfrontier modelとして位置づけている。
Comments (0)
No comments yet. Be the first to comment!