Anthropic BioMysteryBench、人間が詰まった23問の3割をClaudeが突破した意味
Original: New on the Science Blog: We gave Claude 99 problems analyzing real biological data and compared its performance against an expert panel. On … View original →
まず見るべき数字
生物データ解析で本当に難しいのは、知識問題より、散らかった実データを最後までさばけるかどうかだ。Anthropicは4月29日のX投稿で、Claudeを99件のBioMysteryBench課題にかけ、専門家パネルが最初から解けなかった23問のうち、最新モデルが約3割を解いたと書いた。
"On 23 problems, the experts were stumped. Our most recent models solved roughly 30% of those."
この数字が面白いのは、評価の作り方が普通のベンチマークと違うからだ。AnthropicのScience Blogによれば、BioMysteryBenchはrawまたは最小限に前処理したDNA、RNA、proteomics、metabolomicsのデータを使い、研究者の解釈ではなく検証可能なground truthで採点する。各課題には最大5人の専門家が取り組み、品質確認の後で76問がhuman-solvable、23問がhuman-difficultとして残った。Anthropicは、最新のClaude世代が全体では人間専門家と肩を並べ、いくつかの問題では人間と違う分析経路で正答に届いたとしている。
AI for scienceの評価軸が変わる理由
さらに重要なのはモデルの作業環境だ。Anthropicによれば、Claudeはコンテナ内でcanonical bioinformatics toolを使い、必要ならpipやcondaで追加パッケージを入れ、NCBIやEnsemblのような公開データベースにもアクセスできる。つまり、単純な設問回答ではなく、計算生物学の現場に近い流れで測っている。例では、人間専門家が標準的なannotation手法で進めた場面でも、Claudeは配列やパターンそのものから別の道筋を見つけることがあったという。
Anthropicの公式アカウントは、あとで製品ポジショニングやsystem cardに接続される研究を先にXへ出すことが多い。だからこの投稿は単なるスコア自慢ではなく、Claudeをどの分野で競わせたいのかを示すシグナルに近い。次に見るべきは、BioMysteryBenchが他社も使う共有物差しになるか、そして他のモデル企業も整った学術ベンチではなく、こうした messy な生物データ課題で数字を出してくるかどうかだ。 Source: Anthropic source tweet · Anthropic research post
Related Articles
AIのバイオ能力をめぐる議論に、ようやく具体的な数字が入った。AnthropicはClaudeを実データの生物情報学99問で評価し、専門家が詰まった23問の約30%を最近のモデルが解いたと書いた。
Anthropicは2026年3月23日、AIが研究実務とscientific discoveryをどう変えるかに焦点を当てたScience Blogを立ち上げると発表した。新しいblogはfeature、workflow guide、field noteを通じてAnthropicのAI-for-science戦略を継続的なプログラムとして見せている。
Hacker Newsで話題になったOpenMedの投稿は、ESMFold、ProteinMPNN、CodonRoBERTaをつないだprotein AI pipelineと、25 speciesへの拡張結果を公開した。低コストなopen research事例として注目された一方で、HNのコメントではbiological validationの限界も指摘された。
Comments (0)
No comments yet. Be the first to comment!