Google Research, superconductivity 질문에서 curated-source LLM이 우세하다고 보고
Original: Testing LLMs on superconductivity research questions View original →
무슨 일이 있었나
Google Research는 2026년 3월 16일 high-temperature superconductivity를 사례로 삼아 LLM이 전문 연구 파트너 역할을 할 수 있는지 평가한 결과를 공개했다. 이번 연구는 Proceedings of the National Academy of Sciences에 실린 논문을 바탕으로 하며, Cornell University와 협업해 여섯 개 시스템에 전문가 수준 질문을 던지고 답변 품질을 채점했다.
결론은 단순한 model ranking보다 더 흥미롭다. 최고 성능을 낸 시스템은 open web 전체를 탐색한 모델이 아니라, curated reference를 사용하는 NotebookLM과 custom RAG였다. 연구진은 공개 웹 기반 시스템이 확립된 이론과 더 투기적인 주장 사이의 경계를 자주 흐린 반면, 품질 통제된 자료를 사용한 시스템은 더 균형 있고 근거가 분명한 답변을 내놓았다고 설명했다.
연구 설계
- 전문가 패널은 high-Tc superconductivity 분야를 폭넓게 설명하는 15개의 review article을 선정했다.
- 이를 바탕으로 약 1,726개의 curated source를 폐쇄형 시스템에 제공했다.
- 비교군인 web-connected 모델은 765개의 open-access experimental paper와 1,553개의 theoretical paper를 포함한 더 넓은 인터넷 접근을 사용했다.
- 총 67개 질문을 만들고, 균형성·포괄성·간결성·근거 제시 등 여러 기준으로 블라인드 평가를 진행했다.
평가 대상에는 GPT-4o, Perplexity, Claude 3.5, Gemini Advanced Pro 1.5, NotebookLM, 그리고 custom retrieval-augmented generation 시스템이 포함됐다. 연구진은 특히 과학 논문이 heavily visual한 형식이라는 점을 지적하며, 표·그림 해석과 시간적 맥락 이해가 여전히 개선 과제로 남아 있다고 적었다.
왜 중요한가
이번 결과는 과학용 AI assistant의 경쟁력이 단순히 더 큰 open-web 접근성에서 나오지 않을 수 있음을 보여준다. 오히려 좁지만 신뢰할 수 있는 corpus, 명시적인 출처 연결, 그리고 전문가가 설계한 retrieval 경로가 더 나은 연구 보조 성능을 만들 수 있다는 신호다.
Insights 관점에서 보면 이는 scientific AI 제품 전략에도 직접 연결된다. 생물학, 재료과학, 의학처럼 오류 비용이 큰 분야에서는 frontier model 자체보다 curated knowledge layer와 evidence workflow가 더 중요한 차별화 요소가 될 가능성이 높다.
이 점은 연구용 RAG 시장에도 직접적인 메시지를 준다. domain expert가 선별한 corpus와 citation discipline이 제대로 설계되지 않으면, model 규모가 커져도 실제 연구 보조 성능은 제한될 수 있다. scientific assistant를 제품화하려는 기업들에는 retrieval 품질과 provenance 설계가 핵심이라는 점을 다시 확인해 준 사례다.
Related Articles
Google은 2026년 2월 12일 Gemini 3 Deep Think의 대규모 업그레이드를 발표했다. Google AI Ultra 가입자는 Gemini app에서 바로 사용할 수 있고, researchers·engineers·enterprises는 Gemini API early access를 신청할 수 있다.
Anthropic는 2026년 3월 23일 AI가 연구 관행과 scientific discovery를 어떻게 바꾸는지에 초점을 맞춘 Science Blog를 시작한다고 밝혔다. 새 블로그는 feature story, workflow guide, field note를 통해 Anthropic의 AI-for-science 전략을 더 지속적인 프로그램으로 보여 준다.
Google이 Imperial College London, 영국 NHS와 진행한 연구에서 AI가 기존 screening이 놓친 interval cancer의 25%를 찾아냈다고 밝혔다. 두 편의 Nature Cancer 연구는 workload 절감 가능성과 함께, 실제 임상 도입에는 신뢰와 calibration이 필요하다는 점도 보여준다.
Comments (0)
No comments yet. Be the first to comment!