Google Research、superconductivity研究質問でcurated-source型LLMが優位と報告
Original: Testing LLMs on superconductivity research questions View original →
何が起きたのか
Google Researchは2026年3月16日、LLMが専門研究の思考パートナーになれるかを検証した研究結果を公開した。対象分野には high-temperature superconductivity を選び、専門家が作成した質問に対して6つのシステムの回答を採点した。結果は Proceedings of the National Academy of Sciences に掲載された論文に基づいている。
もっとも重要なのは単純な順位ではない。高評価を得たのは、open web全体に広く接続したモデルではなく、curated sourceを使うNotebookLMとcustom RAGだった。研究チームは、web接続型システムが確立した理論と投機的な仮説を混同しやすい一方、品質管理された資料に依拠する構成は、よりバランスがよく根拠の明確な回答を返したと説明している。
研究の設計
- 専門家は分野全体を概観する15本のreview articleを選定した。
- そこから約1,726件のcurated sourceを抽出し、閉じたシステムに与えた。
- 比較対象のweb-connectedモデルには、765本のopen-access experimental paperと1,553本のtheoretical paperを含む広い資料群を利用させた。
- 専門家は67問を作成し、balanced perspective、comprehensiveness、conciseness、evidence qualityなどでブラインド評価を行った。
対象には GPT-4o、Perplexity、Claude 3.5、Gemini Advanced Pro 1.5、NotebookLM、そしてcustom retrieval-augmented generation system が含まれた。NotebookLMが高得点だった理由として、Googleは限定されたdocument libraryに基づいて回答を生成し、参照根拠を明示しやすかった点を挙げている。一方で論文は、時間的文脈の理解やtable・figureの解釈など、全システムに共通する課題も明記した。
なぜ重要か
この結果は、科学分野のAI assistantにおいて、単純なopen-web接続だけでは十分でないことを示している。複雑で未解決論点の多い領域では、信頼できるcorpus、citation discipline、retrieval設計の質がそのまま製品価値になる可能性が高い。
Insights読者にとっての示唆は大きい。今後AIが材料科学、医学、物理、化学に深く入り込むほど、frontier modelの選定以上に、evidence workflowとexpert-curated knowledge layerの設計が差別化要因になっていくはずだ。
Related Articles
Google DeepMindがGoogle I/O 2026で「Gemini for Science」を発表した。科学者が仮説探索、研究の大規模検証、文献解析をAIで加速できる実験的ツール群だ。
Googleは2026年2月12日、Gemini 3 Deep Thinkの大規模アップグレードを発表した。Google AI Ultra加入者はGemini appで利用でき、researchers・engineers・enterprisesはGemini API early accessを申請できる。
Google DeepMindがGeminiベースのマルチエージェントシステム「AI Co-Mathematician」を公開。FrontierMath Tier 4でAI史上最高の48%を達成し、AlphaEvolveは11〜20年間更新されていなかったラムゼー数5問の下限値を改善した。