Sciences X/Twitter 4h ago 1 min read
生物学向けAI agentの評価は、知識問題から研究判断の再現へ移っている。GeneBench-Proは129件の計算生物学問題を扱い、GPT-5.6 Solでも最高推論設定で28.7%、Pro modeで31.5%にとどまる。
生物学向けAI agentの評価は、知識問題から研究判断の再現へ移っている。GeneBench-Proは129件の計算生物学問題を扱い、GPT-5.6 Solでも最高推論設定で28.7%、Pro modeで31.5%にとどまる。