LifeSciBench 750개 생명과학 과제, AI 연구 평가 기준을 현장형으로 전환
Original: LifeSciBench puts 750 real biology tasks in front of AI models View original →
생명과학용 AI가 단순 지식문제가 아니라 연구자의 실제 업무 흐름에서 검증받는 방향으로 움직이고 있다. OpenAI는 6월 17일 X에서 LifeSciBench를 공개하며, 이 벤치마크가 “real-world life science research”를 AI가 얼마나 잘 지원하는지 측정하기 위한 것이라고 설명했다. 핵심 숫자는 173명과 750개다. 바이오테크와 제약 연구에 종사하는 과학자 173명이 참여했고, 결과물은 7개 생물학 연구 워크플로에 걸친 전문가 작성 과제 750개로 정리됐다.
OpenAI 계정은 주로 모델, 제품, 안전 연구를 공식적으로 알리는 채널이다. 이번 트윗은 새 모델 출시보다 평가 인프라에 가깝지만, 생명과학 도메인에서 AI 성능을 재는 방식이 바뀌고 있음을 보여준다. 기존 벤치마크는 정답이 명확한 문제를 많이 다뤘지만, 연구 현장은 문헌 해석, 가설 정리, 실험 조건 선택처럼 불확실성이 큰 작업이 섞인다. LifeSciBench가 7개 워크플로로 나뉘었다는 점은 모델의 평균 점수보다 어느 단계에서 약한지를 추적하려는 설계에 가깝다.
다음 관전점은 이 벤치마크가 특정 모델 홍보 자료를 넘어 외부 연구자에게 얼마나 재현 가능한 기준이 되는지다. 과제 공개 범위, 채점 방식, 생명과학 세부 분야별 난이도 분포가 확인되면 AI 실험 조수의 성능 비교가 더 구체적이 된다. 출처 트윗은 여기에서 볼 수 있다.
Related Articles
AI 화학자의 쓸모가 문헌 검토에서 멈추지 않았다. OpenAI는 GPT-5.4가 Molecule.one의 Maria AI 및 전문 실험실과 함께 약물 발견에 쓰이는 Chan-Lam coupling 개선안을 제시하고 검증 결과까지 냈다고 밝혔다.
OpenAI는 160개 이상 정치학 저널 논문을 대상으로 100만 건 이상 synthetic evaluation을 수행해 재현연구 후보를 선별하는 방법을 공개했다. 논문 제목·초록 기반 예측과 실제 표본 결과의 불일치를 활용해, 검증 가치가 높은 연구를 찾는 접근이다.
OpenAI의 범용 추론 모델이 1946년 폴 에르되시가 제기한 이산 기하학의 핵심 추측을 자율적으로 반증했다. AI가 수학의 주요 미해결 문제를 독립적으로 해결한 것은 역사상 처음이며, 다수의 수학자들이 독립적으로 검증했다.