Anthropic、Claudeを生物情報学99問で実戦検証 専門家難問23件の30%を突破
Original: New on the Science Blog: We gave Claude 99 problems analyzing real biological data and compared its performance against an expert panel. On 23 problems, the experts were stumped. Our most recent models solved roughly 30% of those—and most of the rest. View original →
AIのバイオ能力を語る話は、これまで雰囲気先行になりがちだった。Anthropicは新しいX投稿で、Claudeを実際の生物データに基づく99問へ投入し、専門家パネルと比較したと書いた。注目点は平均点ではない。専門家でも詰まった23問について、最近のClaudeモデルがその約30%を解き、残りの多くでもかなり近いところまで届いたという主張だ。安全性と能力の議論を、数字とベンチマークに引き戻した形になる。
“We gave Claude 99 problems analyzing real biological data… On 23 problems, the experts were stumped.”
元の投稿は このXポスト。Anthropicの公式アカウントは、消費者向け機能よりも safety、eval、interpretability の研究を前面に出すことが多い。ほぼ同時刻の補助投稿では BioMysteryBench を新しい bioinformatics 評価として紹介している。リンク先の題名も “Evaluating Claude’s bioinformatics research capabilities with BioMysteryBench” で、売り文句ではなく現実的な研究課題での補助能力として読ませたい意図が見える。
面白いのは、いちばん難しい切り口を前に出したことだ。易しい問題まで混ぜた総合平均ではなく、人間が止まるケースでモデルがどこまで役に立つかを測る姿勢である。実データ、専門家パネル、open-ended problem という条件がそろうと、規制当局や共同研究先が投げる問いも変わる。単に賢いチャットモデルかではなく、どの段階の科学作業に実用余地があるかという話になる。
次に見るべきは外部検証だ。モデル別の内訳、失敗パターン、再現結果まで公開されて初めて、BioMysteryBenchは一回限りの宣伝ではなく基準になる。それでも今回の投稿だけで十分に伝わることがある。AnthropicはClaudeを coding copilot の延長ではなく、測定可能な生物情報学補助ツール候補として押し出し始めた。一次情報の投稿は ここだ。
Related Articles
Anthropicは2026年3月23日、AIが研究実務とscientific discoveryをどう変えるかに焦点を当てたScience Blogを立ち上げると発表した。新しいblogはfeature、workflow guide、field noteを通じてAnthropicのAI-for-science戦略を継続的なプログラムとして見せている。
OpenAIは、ChatGPTがscienceとmathematicsで既にresearch-scaleで使われていると述べた。2026年1月の報告書では、advanced science・math usageが週8.4 million messages、weekly userが約1.3 millionに達し、GPT-5.2がserious mathematical workでも初期成果を見せ始めたとしている。
Hacker Newsで話題になったOpenMedの投稿は、ESMFold、ProteinMPNN、CodonRoBERTaをつないだprotein AI pipelineと、25 speciesへの拡張結果を公開した。低コストなopen research事例として注目された一方で、HNのコメントではbiological validationの限界も指摘された。
Comments (0)
No comments yet. Be the first to comment!