ChatGPTの健康回答、事実性アラート71%減 無料モデルにも反映
Original: Improving health intelligence in ChatGPT View original →
健康相談は、ChatGPTの用途の中でも失敗時の代償が大きい領域だ。OpenAIは、毎週2億3000万人以上が健康やウェルネスの質問にChatGPTを使っているとし、GPT-5.5 Instantで健康回答の精度、安全性、文脈把握が大きく改善したと説明した。
最も重要な数字は71%だ。OpenAIによると、実際の健康関連トラフィックをプライバシー保護型の監視で比較した結果、事実性の問題が少なくとも1つ検出された回答の比率は直近2カ月で71%下がった。研究室内の小さな評価ではなく、週あたり数十億件規模のメッセージを対象にした指標である点が重い。
評価には、医師が作成したルーブリックを使うHealthBenchとHealthBench Professionalが含まれる。OpenAIは、GPT-5.5 Instantがこれらの集計評価で最新のfrontier Thinkingモデルに近い水準へ達し、GPT-5.3 Instantから大きく改善したとしている。GPT-5.5 Instantは無料ユーザーにも制限付きで提供される。
医師との比較評価も行われた。医師がインターネットを使える条件で代表的な健康会話に回答し、別の医師パネルが3,500件の応答を、正確性、伝達の明確さ、完全性、指示への従い方、健康判断への有用性で比較した。OpenAIによれば、GPT-5.5 Instantは過去モデルや医師作成回答より高く評価された。
これは診断の自動化を意味しない。変化の中心は、緊急受診が必要な兆候を見逃しにくくすること、追加の文脈を尋ねること、不確実性を誇張しないことだ。健康AIの競争軸は、医学用語を流暢に並べる力から、危険な断定をどれだけ減らせるかへ移っている。
Related Articles
Google Researchは、皮膚症状を調べるAIを病名候補だけで測らず、利用者が次の行動を選べるかまで見た研究を示した。JAMA Dermatologyの2,345人調査と混合研究を合わせ、医療AI評価の焦点が利用者理解へ移っている。
AI化学者の評価軸が、文章回答から実験結果へ移り始めた。OpenAIはGPT-5.4がMolecule.oneのMaria AIと専門ラボと組み、創薬反応の改善案を検証結果まで進めたとしている。
生命科学向けAIの評価が、研究現場に近い課題へ寄ってきた。OpenAIは、バイオ・製薬分野の科学者173人と7つの研究ワークフローにまたがる750課題を作ったとしている。