LifeSciBench、750の専門課題で生命科学AIの実務力を測る基準へ

生命科学向けAIの評価は、知識問題の正答率だけでは足りなくなっている。OpenAIは6月17日、XでLifeSciBenchを示し、AIが「real-world life science research」をどこまで支援できるか測るためのベンチマークだと説明した。軸になる数字は173人と750課題である。バイオテクノロジーと製薬研究の科学者173人が関わり、7つの生物学研究ワークフローにまたがる専門家作成タスク750件が含まれる。

OpenAIの公式アカウントは、モデルや製品、安全性研究を知らせる場として使われることが多い。今回の投稿は新モデルそのものではなく、評価基盤の話だが、生命科学でAIを使う際の焦点が変わりつつあることを示す。実際の研究では、文献の読み替え、仮説の整理、実験条件の選択、結果の解釈が連続する。7つのワークフローに分ける設計なら、平均点だけでなく、どの工程でモデルが弱いかを見やすくなる。

次に見るべき点は、LifeSciBenchが外部研究者にも検証できる形で広がるかどうかだ。課題の公開範囲、採点基準、分野ごとの難易度が明らかになれば、生命科学AIの比較はより具体的になる。出典の投稿はこちらで確認できる。

Sciences X/Twitter 6h ago 1 min read

Astra、10件の未解決問題をLean証明付き研究成果に変えた衝撃

OpenAIの次期モデルファミリーAstraが、benchmarkだけでなく研究成果そのもので示された。内部版は10件の未解決問題で新結果を出し、探索に必要なtokensはSol API換算で約$2,000と説明されている。

#openai #astra #lean

Sciences May 3, 2026 1 min read

ハーバード大研究がScienceに掲載：OpenAI o1、救急外来医師より高い診断精度を実証

ハーバード医科大学とベス・イスラエル・ディアコネスがScienceに発表した研究で、OpenAI o1が実際の救急トリアージ76ケースの67%を正確に診断し、2名の内科専門医（55%・50%）を上回った。

#openai #healthcare #research

Sciences X/Twitter Jul 1, 2026 1 min read

GeneBench-Pro、biology agent評価を129問の研究判断ベンチマークへ

生物学向けAI agentの評価は、知識問題から研究判断の再現へ移っている。GeneBench-Proは129件の計算生物学問題を扱い、GPT-5.6 Solでも最高推論設定で28.7%、Pro modeで31.5%にとどまる。

#openai #genebench-pro #biology

Related Articles

Astra、10件の未解決問題をLean証明付き研究成果に変えた衝撃

ハーバード大研究がScienceに掲載：OpenAI o1、救急外来医師より高い診断精度を実証

GeneBench-Pro、biology agent評価を129問の研究判断ベンチマークへ