하버드 연구: OpenAI o1이 응급실 의사보다 높은 진단 정확도—Science 논문
연구 개요
하버드 의대와 Beth Israel Deaconess Medical Center 연구팀이 Science에 게재한 논문에서 OpenAI o1 모델이 실제 응급실 케이스 진단에서 두 내과 전문의를 능가하는 정확도를 기록했다.
핵심 수치
- 실제 응급실 트리아지 케이스 76건 평가
- OpenAI o1: 정확 또는 근접 진단 67%
- 내과 전문의 2명: 각각 55%, 50%
- 5개 심층 임상 케이스: o1 89% vs 기존 검색 도구 활용 의사 46명 34%
연구 조건
모델과 의사 모두 동일한 전처리 없는 전자건강기록(EHR) 데이터를 텍스트 형태로만 받았다. 별도 이미지나 추가 검사 데이터는 제공하지 않아 실제 임상 환경에 근접한 조건을 구현했다.
의미와 한계
연구팀은 AI가 의사를 대체하는 것이 목적이 아니라 진단 보조 도구로서의 가능성을 확인한 것이라고 강조했다. 76건이라는 샘플 크기는 임상 도입 결정에 충분하지 않으며, 희귀 질환과 복잡한 공존 질환에 대한 추가 연구가 필요하다.
출처: TechCrunch
Related Articles
저명 학술지 Science에 게재된 새 연구에 따르면 최신 LLM이 실제 응급실 데이터와 수백 명의 의사 비교 실험에서 진단, 응급 분류, 다음 처치 결정 등 임상 과제 전반에서 인간 의사와 동등하거나 상회하는 성과를 보였다. 연구자들은 AI가 의사를 대체하는 것이 아니라 협력적 돌봄 모델로 통합돼야 한다고 강조했다.
OpenAI는 ChatGPT가 science와 mathematics에서 이미 research-scale로 쓰이고 있다고 밝혔다. 2026년 1월 보고서에 따르면 advanced science·math usage는 주당 8.4 million messages, weekly users는 약 1.3 million에 이르렀고, GPT-5.2는 serious mathematical work에서도 초기 성과를 보이기 시작했다.
중요한 이유는 생물학 평가가 이제 깔끔한 시험 문제가 아니라 실제 데이터 분석 흐름으로 옮겨가고 있기 때문이다. Anthropic은 Claude가 99개 bioinformatics 과제를 풀었고, 전문가 패널이 막힌 23개 중 약 30%를 해결했다고 적었다.
Comments (0)
No comments yet. Be the first to comment!