ChatGPT 건강 답변, 사실 오류 신호 71% 감소… 무료 모델까지 확대
Original: Improving health intelligence in ChatGPT View original →
건강 질문은 ChatGPT에서 가장 민감한 사용처 중 하나다. OpenAI는 매주 2억3000만 명 이상이 건강·웰니스 질문에 ChatGPT를 사용한다고 밝히며, GPT-5.5 Instant에서 건강 답변의 정확도와 안전성 지표가 크게 개선됐다고 공개했다.
가장 눈에 띄는 숫자는 71%다. OpenAI는 최근 2개월 동안의 실제 건강 관련 사용 트래픽을 개인정보 보호 방식으로 모니터링한 결과, 사실성 문제가 하나 이상 표시된 답변 비율이 71% 감소했다고 설명했다. 단순한 데모가 아니라 매주 수십억 건 규모의 메시지 흐름에서 관찰한 변화라는 점이 중요하다.
평가 방식도 의료 도메인에 맞춰 조정됐다. OpenAI는 HealthBench와 HealthBench Professional 같은 의사 작성 루브릭을 사용해 정확성, 안전성, 맥락 파악, 완결성, 적절한 진료 권고를 살폈다. GPT-5.5 Instant는 이 집계 평가에서 최신 frontier 모델과 비슷한 수준에 도달했고, GPT-5.3 Instant보다 뚜렷하게 나아졌다는 설명이다.
의사 비교 평가도 포함됐다. 의사들이 인터넷을 사용할 수 있는 조건에서 대표 건강 대화에 답변을 작성했고, 별도 의사 패널이 총 3,500개 응답을 비교했다. OpenAI에 따르면 GPT-5.5 Instant 응답은 정확성, 소통, 완결성, 지시 준수, 건강 의사결정 도움 기준에서 과거 모델과 의사 작성 응답보다 높은 평가를 받았다.
다만 이것이 진단 자동화를 뜻하지는 않는다. OpenAI가 강조한 개선점은 긴급 진료가 필요한 상황을 더 잘 알아차리고, 필요한 맥락을 묻고, 불확실성을 과장하지 않는 답변이다. 건강 AI 경쟁의 다음 쟁점은 모델 점수보다 실제 사용자에게 위험한 확신을 얼마나 줄이는가에 가까워지고 있다.
Related Articles
피부 증상을 검색어로 설명하기 어려운 사람에게 AI가 단순 진단 후보를 넘어 다음 행동 판단까지 도움을 줄 수 있다는 대규모 실험 결과가 나왔다. Google Research는 JAMA Dermatology 논문과 CHI 연구를 묶어, 2,345명 규모 평가에서 AI 기반 정보 도구의 효과와 한계를 함께 제시했다.
AI 화학자의 쓸모가 문헌 검토에서 멈추지 않았다. OpenAI는 GPT-5.4가 Molecule.one의 Maria AI 및 전문 실험실과 함께 약물 발견에 쓰이는 Chan-Lam coupling 개선안을 제시하고 검증 결과까지 냈다고 밝혔다.
생명과학 AI 평가가 실제 연구 업무에 가까워졌다. OpenAI는 바이오·제약 연구자 173명과 만든 750개 전문가 과제로 모델이 문헌 검토, 실험 설계, 분석 흐름을 얼마나 지원하는지 보겠다고 밝혔다.