하버드 연구: OpenAI o1, 응급실 환자 67% 정확 진단
Original: OpenAI's o1 correctly diagnosed 67% of ER patients vs. 50-55% by triage doctors View original →
하버드 의대 임상 시험
하버드 의대 연구팀이 보스턴 응급실에서 76명의 환자를 대상으로 OpenAI의 o1 추론 모델과 의사 팀의 진단 능력을 비교하는 시험을 진행했다. 양쪽 모두 동일한 전자 건강 기록(바이탈 사인, 인구통계 정보, 간호사 트리아지 메모)을 받았다.
핵심 수치
- 기본 트리아지 정보: AI 67% vs 의사 50~55%
- 상세 정보 제공 시: AI 82% vs 의사 70~79%
- 장기 치료 계획(5개 임상 케이스): AI 89% vs 의사 34%
AI의 강점은 정보가 제한된 긴급 판단 상황에서 특히 두드러졌다. 한 케이스에서는 혈전 환자에게 항응고제가 효과 없다고 판단한 의사들과 달리, AI는 루푸스 병력을 포착해 실제 원인이 폐 염증임을 정확히 짚어냈다.
의사 대체가 아닌 협력 모델
연구 주저자인 Arjun Manrai 하버드 의대 교수는 "이 결과가 AI가 의사를 대체한다는 의미는 아니다"라고 밝혔다. 이번 연구는 텍스트 데이터만을 대상으로 했으며, 환자의 외형이나 고통 수준은 평가하지 않았다. 즉 AI는 서류 기반 세컨드 오피니언 역할에 가까웠다.
공동 저자 Adam Rodman 박사는 LLM을 "수십 년 만에 가장 영향력 있는 기술" 중 하나로 꼽으며, 앞으로 10년 내 의료가 의사·환자·AI의 삼자 케어 모델로 재편될 것으로 전망했다.
이미 진행 중인 도입
미국 의사의 약 20%가 이미 AI를 진단 보조에 활용 중이며, 영국에서는 의사의 16%가 매일, 15%가 매주 AI를 사용하고 있다. 현장에서의 최대 우려는 AI 오류와 법적 책임이다.
Related Articles
OpenAI가 의료 현장용 워크스페이스를 무료로 풀었다. 미국 의사 AI 사용률이 72%까지 올라온 시점에 맞춰, 검증된 의사·NP·PA·약사에게 개방하고 6,924개 대화 평가에서 응답 99.6%를 안전·정확으로 제시했다.
중요한 점은 OpenAI가 정확성 claim이 실제 clinical consequence로 이어지는 regulated workflow를 직접 겨냥한다는 데 있다. 연결된 rollout은 physician review 6,924 conversations와 99.6% safe/accurate rating을 제시했다.
OpenAI는 사이버 경쟁의 질문을 “누가 더 강한 모델을 갖고 있나”에서 “누가 방어 도구를 더 넓게 배포하나”로 옮기려 한다. 2026년 4월 29일 공개한 계획은 다섯 축으로 정리됐고, 그중 핵심은 방어 접근 확대와 고위험 배치의 가시성 유지다.
Comments (0)
No comments yet. Be the first to comment!