Sciences X/Twitter 4h ago 1 min read
생물학용 AI 에이전트 평가는 단순 Q&A에서 실제 연구 판단 재현으로 이동하고 있다. OpenAI의 GeneBench-Pro는 129개 계산생물학 문제를 제시하며, GPT-5.6 Sol도 최고 추론 설정에서 28.7%, Pro mode에서 31.5%에 그쳤다.
생물학용 AI 에이전트 평가는 단순 Q&A에서 실제 연구 판단 재현으로 이동하고 있다. OpenAI의 GeneBench-Pro는 129개 계산생물학 문제를 제시하며, GPT-5.6 Sol도 최고 추론 설정에서 28.7%, Pro mode에서 31.5%에 그쳤다.