ChatGPTの健康回答、事実性アラート71%減　無料モデルにも反映

健康相談は、ChatGPTの用途の中でも失敗時の代償が大きい領域だ。OpenAIは、毎週2億3000万人以上が健康やウェルネスの質問にChatGPTを使っているとし、GPT-5.5 Instantで健康回答の精度、安全性、文脈把握が大きく改善したと説明した。

最も重要な数字は71%だ。OpenAIによると、実際の健康関連トラフィックをプライバシー保護型の監視で比較した結果、事実性の問題が少なくとも1つ検出された回答の比率は直近2カ月で71%下がった。研究室内の小さな評価ではなく、週あたり数十億件規模のメッセージを対象にした指標である点が重い。

評価には、医師が作成したルーブリックを使うHealthBenchとHealthBench Professionalが含まれる。OpenAIは、GPT-5.5 Instantがこれらの集計評価で最新のfrontier Thinkingモデルに近い水準へ達し、GPT-5.3 Instantから大きく改善したとしている。GPT-5.5 Instantは無料ユーザーにも制限付きで提供される。

医師との比較評価も行われた。医師がインターネットを使える条件で代表的な健康会話に回答し、別の医師パネルが3,500件の応答を、正確性、伝達の明確さ、完全性、指示への従い方、健康判断への有用性で比較した。OpenAIによれば、GPT-5.5 Instantは過去モデルや医師作成回答より高く評価された。

これは診断の自動化を意味しない。変化の中心は、緊急受診が必要な兆候を見逃しにくくすること、追加の文脈を尋ねること、不確実性を誇張しないことだ。健康AIの競争軸は、医学用語を流暢に並べる力から、危険な断定をどれだけ減らせるかへ移っている。

ChatGPTの健康回答、事実性アラート71%減　無料モデルにも反映

Related Articles

皮膚AI、2,345人調査で「次に何をするか」まで評価へ

GPT-5.4、文献調査から実験検証まで進んだAI化学者の実例

LifeSciBench、750の専門課題で生命科学AIの実務力を測る基準へ