하버드 연구: OpenAI o1이 응급실 의사보다 높은 진단 정확도—Science 논문
연구 개요
하버드 의대와 Beth Israel Deaconess Medical Center 연구팀이 Science에 게재한 논문에서 OpenAI o1 모델이 실제 응급실 케이스 진단에서 두 내과 전문의를 능가하는 정확도를 기록했다.
핵심 수치
- 실제 응급실 트리아지 케이스 76건 평가
- OpenAI o1: 정확 또는 근접 진단 67%
- 내과 전문의 2명: 각각 55%, 50%
- 5개 심층 임상 케이스: o1 89% vs 기존 검색 도구 활용 의사 46명 34%
연구 조건
모델과 의사 모두 동일한 전처리 없는 전자건강기록(EHR) 데이터를 텍스트 형태로만 받았다. 별도 이미지나 추가 검사 데이터는 제공하지 않아 실제 임상 환경에 근접한 조건을 구현했다.
의미와 한계
연구팀은 AI가 의사를 대체하는 것이 목적이 아니라 진단 보조 도구로서의 가능성을 확인한 것이라고 강조했다. 76건이라는 샘플 크기는 임상 도입 결정에 충분하지 않으며, 희귀 질환과 복잡한 공존 질환에 대한 추가 연구가 필요하다.
출처: TechCrunch
Related Articles
생명과학 AI 평가가 실제 연구 업무에 가까워졌다. OpenAI는 바이오·제약 연구자 173명과 만든 750개 전문가 과제로 모델이 문헌 검토, 실험 설계, 분석 흐름을 얼마나 지원하는지 보겠다고 밝혔다.
피부 증상을 검색어로 설명하기 어려운 사람에게 AI가 단순 진단 후보를 넘어 다음 행동 판단까지 도움을 줄 수 있다는 대규모 실험 결과가 나왔다. Google Research는 JAMA Dermatology 논문과 CHI 연구를 묶어, 2,345명 규모 평가에서 AI 기반 정보 도구의 효과와 한계를 함께 제시했다.
AI 화학자의 쓸모가 문헌 검토에서 멈추지 않았다. OpenAI는 GPT-5.4가 Molecule.one의 Maria AI 및 전문 실험실과 함께 약물 발견에 쓰이는 Chan-Lam coupling 개선안을 제시하고 검증 결과까지 냈다고 밝혔다.