129개 문제로 좁혀 본 생물학 연구 판단

생물학 연구를 돕는 AI 에이전트는 더 이상 논문 요약 능력만으로 평가하기 어렵다. OpenAI는 2026년 6월 30일 X에 올린 글에서 GeneBench-Pro를 공개하며, 생물학 에이전트가 실제 연구자가 수행하는 분석, 설계, 해석 과제를 얼마나 재현하는지 측정하겠다고 밝혔다. 트윗의 핵심 문장은 짧지만 분명하다.

“GeneBench-Pro: a benchmark for evaluating AI agents on real-world biology tasks.”

공개 보도와 OpenAI 글을 인용한 색인 자료에 따르면 GeneBench-Pro는 129개 계산생물학 문제로 구성된다. 과제는 단답형 생물학 지식이 아니라 유전체 분석, 실험 설계, 데이터 해석처럼 산출물의 품질을 따져야 하는 형태다. 현재 최고 성능으로 언급된 GPT-5.6 Sol도 highest reasoning level에서 28.7%, Pro mode에서 31.5%의 통과율에 머물렀고, 원래 GeneBench를 만들기 시작했을 때 GPT-5는 5% 미만이었다는 비교가 붙었다.

OpenAI 계정은 보통 모델 출시와 제품 업데이트를 중심으로 게시하지만, 이번 트윗은 연구 평가 인프라에 가깝다. 생물학은 LLM이 빠르게 들어가고 있는 영역이지만, 환각과 절차 오류의 비용이 높다. 특히 도구 사용 에이전트가 데이터베이스 검색, 코드 실행, 보고서 작성까지 맡는 경우, 하나의 최종 답보다 중간 단계의 판단 품질이 중요해진다.

다음 관전점은 GeneBench-Pro가 공개 벤치마크로 얼마나 재현 가능하게 운영되는지다. 129개 문제가 특정 모델군에 과적합되지 않는지, 채점 방식이 인간 전문가의 판단과 어느 정도 일치하는지, 생물학 연구실과 제약사가 이 점수를 실제 에이전트 채택 기준으로 볼지가 중요하다. 출처: OpenAI source tweet · OpenAI GeneBench-Pro post

#genebench-pro

GeneBench-Pro, 생물학 에이전트 평가를 129개 연구 문제로 끌어올린 새 기준