r/MachineLearning의 논문 모순 탐지 프로토타입, 검색을 claim graph로 바꾸려 한다
Original: [D] Two college students built a prototype that tries to detect contradictions between research papers — curious if this would actually be useful View original →
r/MachineLearning에 올라온 한 self-post는 논문 검색 도구를 단순 retrieval에서 contradiction detection으로 확장하려는 시도를 보여준다. 글을 올린 두 학생은 프로젝트나 literature review를 하다가 서로 반대되는 주장을 하는 논문을 뒤늦게 발견하는 일이 반복됐고, 이를 자동으로 잡아내는 작은 실험 시스템을 만들었다고 설명했다.
아이디어는 비교적 직관적이다. 시스템은 논문을 읽고 "X improves Y", "X reduces Y", "X enables Y" 같은 causal claim을 뽑아낸 뒤, 관계 graph를 만들고 다른 논문이 반대 방향의 주장을 하는지 확인한다. 예를 들어 한 논문이 X가 Y를 증가시킨다고 말하고 다른 논문이 감소시킨다고 말하면, 이 둘을 flag하고 나란히 보여주는 식이다. 작성자들은 한 교수의 publication list 약 50편에 적용해 봤고, abstract만 읽어서는 놓쳤을 만한 conflicting findings가 실제로 surfaced됐다고 적었다.
현재 프로토타입의 구성
- Python과 FastAPI backend
- React frontend
- Neo4j graph database
- OpenAlex 기반 paper data 수집
- LLM을 이용한 claim extraction
이 조합이 흥미로운 이유는, 문헌 도구의 중심을 "문서를 찾는 것"에서 "주장 간 관계를 비교하는 것"으로 옮기기 때문이다. 검색 엔진은 보통 논문을 잘 찾아주지만, 같은 변수에 대해 상반된 인과 주장이 있는지를 구조적으로 보여주지는 못한다. claim graph가 어느 정도 신뢰할 수 있게 동작한다면, 연구자는 실험 설계나 related work 정리 전에 이미 disagreement 지점을 빠르게 확인할 수 있다.
물론 작성자들도 한계를 숨기지 않았다. claim extraction 과정에서 문장 속 조건이 사라질 수 있고, 때로는 system이 이상한 hypothesis를 만들며, domain filtering도 더 손봐야 한다고 했다. 아키텍처 일부는 exploratory vibe coding으로 진화했다고도 솔직하게 적었다. 그래서 이 도구의 가치는 "논문 간 모순을 자동으로 판정한다"는 강한 약속보다는, claim-level comparison을 연구 workflow에 넣을 수 있는지 시험하는 데 있다.
실제로 이런 도구가 연구 현장에서 쓰이려면, 단순히 모순 딱지를 붙이는 것보다 문맥 보존이 더 중요하다. 실험 조건, 데이터셋, 전제, 측정 방식이 다르면 표면상 반대 주장이 실제로는 양립할 수 있기 때문이다. 그럼에도 이 Reddit 프로젝트는 paper search를 graph reasoning과 evidence alignment 문제로 다시 정의한다는 점에서 충분히 의미가 있다. 초기 단계이지만, literature review tooling이 어디로 갈 수 있는지 보여주는 방향성 있는 시도다.
Related Articles
Reddit의 관심은 멋진 지도 화면 자체보다, 1천만 편 논문을 어떻게 눌러 담았는지에 붙었다. OpenAlex·SPECTER 2·UMAP·Voronoi를 묶은 이 프로젝트는 검색보다 탐색에 가까운 연구 네비게이션을 노린다.
Microsoft Discovery가 6월 2일 모든 조직 대상 정식 제공으로 전환됐다. 과학·엔지니어링 R&D에서 전문 agent, 지식, 시뮬레이션, 검증 데이터를 묶고, 개인 연구자용 로컬 앱은 preview로 열렸다.
AI가 생명과학 연구에서 문헌 요약을 넘어 실행 가능한 워크플로로 이동하고 있다. OpenAI는 GPT-Rosalind가 MedChemBench 27.5%, GeneBench 21.6%, LabWorkBench 63.2%를 기록했다고 밝혔다.