Anthropic BioMysteryBench、人間が詰まった23問の3割をClaudeが突破した意味

Original: New on the Science Blog: We gave Claude 99 problems analyzing real biological data and compared its performance against an expert panel. On … View original →

Read in other languages: 한국어English
Sciences May 1, 2026 By Insights AI 1 min read Source

まず見るべき数字

生物データ解析で本当に難しいのは、知識問題より、散らかった実データを最後までさばけるかどうかだ。Anthropicは4月29日のX投稿で、Claudeを99件のBioMysteryBench課題にかけ、専門家パネルが最初から解けなかった23問のうち、最新モデルが約3割を解いたと書いた。

"On 23 problems, the experts were stumped. Our most recent models solved roughly 30% of those."

この数字が面白いのは、評価の作り方が普通のベンチマークと違うからだ。AnthropicのScience Blogによれば、BioMysteryBenchはrawまたは最小限に前処理したDNA、RNA、proteomics、metabolomicsのデータを使い、研究者の解釈ではなく検証可能なground truthで採点する。各課題には最大5人の専門家が取り組み、品質確認の後で76問がhuman-solvable、23問がhuman-difficultとして残った。Anthropicは、最新のClaude世代が全体では人間専門家と肩を並べ、いくつかの問題では人間と違う分析経路で正答に届いたとしている。

AI for scienceの評価軸が変わる理由

さらに重要なのはモデルの作業環境だ。Anthropicによれば、Claudeはコンテナ内でcanonical bioinformatics toolを使い、必要ならpipやcondaで追加パッケージを入れ、NCBIやEnsemblのような公開データベースにもアクセスできる。つまり、単純な設問回答ではなく、計算生物学の現場に近い流れで測っている。例では、人間専門家が標準的なannotation手法で進めた場面でも、Claudeは配列やパターンそのものから別の道筋を見つけることがあったという。

Anthropicの公式アカウントは、あとで製品ポジショニングやsystem cardに接続される研究を先にXへ出すことが多い。だからこの投稿は単なるスコア自慢ではなく、Claudeをどの分野で競わせたいのかを示すシグナルに近い。次に見るべきは、BioMysteryBenchが他社も使う共有物差しになるか、そして他のモデル企業も整った学術ベンチではなく、こうした messy な生物データ課題で数字を出してくるかどうかだ。 Source: Anthropic source tweet · Anthropic research post

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment