LifeSciBench、750の専門課題で生命科学AIの実務力を測る基準へ
Original: LifeSciBench puts 750 real biology tasks in front of AI models View original →
生命科学向けAIの評価は、知識問題の正答率だけでは足りなくなっている。OpenAIは6月17日、XでLifeSciBenchを示し、AIが「real-world life science research」をどこまで支援できるか測るためのベンチマークだと説明した。軸になる数字は173人と750課題である。バイオテクノロジーと製薬研究の科学者173人が関わり、7つの生物学研究ワークフローにまたがる専門家作成タスク750件が含まれる。
OpenAIの公式アカウントは、モデルや製品、安全性研究を知らせる場として使われることが多い。今回の投稿は新モデルそのものではなく、評価基盤の話だが、生命科学でAIを使う際の焦点が変わりつつあることを示す。実際の研究では、文献の読み替え、仮説の整理、実験条件の選択、結果の解釈が連続する。7つのワークフローに分ける設計なら、平均点だけでなく、どの工程でモデルが弱いかを見やすくなる。
次に見るべき点は、LifeSciBenchが外部研究者にも検証できる形で広がるかどうかだ。課題の公開範囲、採点基準、分野ごとの難易度が明らかになれば、生命科学AIの比較はより具体的になる。出典の投稿はこちらで確認できる。
Related Articles
AI化学者の評価軸が、文章回答から実験結果へ移り始めた。OpenAIはGPT-5.4がMolecule.oneのMaria AIと専門ラボと組み、創薬反応の改善案を検証結果まで進めたとしている。
ハーバード医科大学とベス・イスラエル・ディアコネスがScienceに発表した研究で、OpenAI o1が実際の救急トリアージ76ケースの67%を正確に診断し、2名の内科専門医(55%・50%)を上回った。
OpenAIの汎用推論モデルが、1946年にエルデシュが提起した離散幾何学の核心的予想を自律的に反証した。AIが著名な未解決数学問題を自力で解いたのは史上初であり、プリンストン大学のノガ・アロンを含む複数の数学者が証明を検証した。