ChatGPT 건강 답변, 사실 오류 신호 71% 감소… 무료 모델까지 확대

건강 질문은 ChatGPT에서 가장 민감한 사용처 중 하나다. OpenAI는 매주 2억3000만 명 이상이 건강·웰니스 질문에 ChatGPT를 사용한다고 밝히며, GPT-5.5 Instant에서 건강 답변의 정확도와 안전성 지표가 크게 개선됐다고 공개했다.

가장 눈에 띄는 숫자는 71%다. OpenAI는 최근 2개월 동안의 실제 건강 관련 사용 트래픽을 개인정보 보호 방식으로 모니터링한 결과, 사실성 문제가 하나 이상 표시된 답변 비율이 71% 감소했다고 설명했다. 단순한 데모가 아니라 매주 수십억 건 규모의 메시지 흐름에서 관찰한 변화라는 점이 중요하다.

평가 방식도 의료 도메인에 맞춰 조정됐다. OpenAI는 HealthBench와 HealthBench Professional 같은 의사 작성 루브릭을 사용해 정확성, 안전성, 맥락 파악, 완결성, 적절한 진료 권고를 살폈다. GPT-5.5 Instant는 이 집계 평가에서 최신 frontier 모델과 비슷한 수준에 도달했고, GPT-5.3 Instant보다 뚜렷하게 나아졌다는 설명이다.

의사 비교 평가도 포함됐다. 의사들이 인터넷을 사용할 수 있는 조건에서 대표 건강 대화에 답변을 작성했고, 별도 의사 패널이 총 3,500개 응답을 비교했다. OpenAI에 따르면 GPT-5.5 Instant 응답은 정확성, 소통, 완결성, 지시 준수, 건강 의사결정 도움 기준에서 과거 모델과 의사 작성 응답보다 높은 평가를 받았다.

다만 이것이 진단 자동화를 뜻하지는 않는다. OpenAI가 강조한 개선점은 긴급 진료가 필요한 상황을 더 잘 알아차리고, 필요한 맥락을 묻고, 불확실성을 과장하지 않는 답변이다. 건강 AI 경쟁의 다음 쟁점은 모델 점수보다 실제 사용자에게 위험한 확신을 얼마나 줄이는가에 가까워지고 있다.

ChatGPT 건강 답변, 사실 오류 신호 71% 감소… 무료 모델까지 확대

Related Articles

피부 AI, 2,345명 실험에서 “다음 행동” 판단까지 개선

GPT-5.4, Chan-Lam 반응 실험까지 이어진 AI 화학자 검증 사례

LifeSciBench 750개 생명과학 과제, AI 연구 평가 기준을 현장형으로 전환