Anthropic、Claudeを生物情報学99問で実戦検証 専門家難問23件の30%を突破

Original: New on the Science Blog: We gave Claude 99 problems analyzing real biological data and compared its performance against an expert panel. On 23 problems, the experts were stumped. Our most recent models solved roughly 30% of those—and most of the rest. View original →

Read in other languages: 한국어English
Sciences Apr 30, 2026 By Insights AI 1 min read 1 views Source
Anthropic、Claudeを生物情報学99問で実戦検証 専門家難問23件の30%を突破

AIのバイオ能力を語る話は、これまで雰囲気先行になりがちだった。Anthropicは新しいX投稿で、Claudeを実際の生物データに基づく99問へ投入し、専門家パネルと比較したと書いた。注目点は平均点ではない。専門家でも詰まった23問について、最近のClaudeモデルがその約30%を解き、残りの多くでもかなり近いところまで届いたという主張だ。安全性と能力の議論を、数字とベンチマークに引き戻した形になる。

“We gave Claude 99 problems analyzing real biological data… On 23 problems, the experts were stumped.”

元の投稿は このXポスト。Anthropicの公式アカウントは、消費者向け機能よりも safety、eval、interpretability の研究を前面に出すことが多い。ほぼ同時刻の補助投稿では BioMysteryBench を新しい bioinformatics 評価として紹介している。リンク先の題名も “Evaluating Claude’s bioinformatics research capabilities with BioMysteryBench” で、売り文句ではなく現実的な研究課題での補助能力として読ませたい意図が見える。

面白いのは、いちばん難しい切り口を前に出したことだ。易しい問題まで混ぜた総合平均ではなく、人間が止まるケースでモデルがどこまで役に立つかを測る姿勢である。実データ、専門家パネル、open-ended problem という条件がそろうと、規制当局や共同研究先が投げる問いも変わる。単に賢いチャットモデルかではなく、どの段階の科学作業に実用余地があるかという話になる。

次に見るべきは外部検証だ。モデル別の内訳、失敗パターン、再現結果まで公開されて初めて、BioMysteryBenchは一回限りの宣伝ではなく基準になる。それでも今回の投稿だけで十分に伝わることがある。AnthropicはClaudeを coding copilot の延長ではなく、測定可能な生物情報学補助ツール候補として押し出し始めた。一次情報の投稿は ここだ。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment