LifeSciBench 750개 생명과학 과제, AI 연구 평가 기준을 현장형으로 전환

생명과학용 AI가 단순 지식문제가 아니라 연구자의 실제 업무 흐름에서 검증받는 방향으로 움직이고 있다. OpenAI는 6월 17일 X에서 LifeSciBench를 공개하며, 이 벤치마크가 “real-world life science research”를 AI가 얼마나 잘 지원하는지 측정하기 위한 것이라고 설명했다. 핵심 숫자는 173명과 750개다. 바이오테크와 제약 연구에 종사하는 과학자 173명이 참여했고, 결과물은 7개 생물학 연구 워크플로에 걸친 전문가 작성 과제 750개로 정리됐다.

OpenAI 계정은 주로 모델, 제품, 안전 연구를 공식적으로 알리는 채널이다. 이번 트윗은 새 모델 출시보다 평가 인프라에 가깝지만, 생명과학 도메인에서 AI 성능을 재는 방식이 바뀌고 있음을 보여준다. 기존 벤치마크는 정답이 명확한 문제를 많이 다뤘지만, 연구 현장은 문헌 해석, 가설 정리, 실험 조건 선택처럼 불확실성이 큰 작업이 섞인다. LifeSciBench가 7개 워크플로로 나뉘었다는 점은 모델의 평균 점수보다 어느 단계에서 약한지를 추적하려는 설계에 가깝다.

다음 관전점은 이 벤치마크가 특정 모델 홍보 자료를 넘어 외부 연구자에게 얼마나 재현 가능한 기준이 되는지다. 과제 공개 범위, 채점 방식, 생명과학 세부 분야별 난이도 분포가 확인되면 AI 실험 조수의 성능 비교가 더 구체적이 된다. 출처 트윗은 여기에서 볼 수 있다.

Sciences X/Twitter 6h ago 1 min read

Astra가 10개 난제를 Lean 증명서로 검증한 OpenAI의 연구 승부수

OpenAI의 차기 모델 계열 Astra가 수학·이론컴퓨터과학의 장기 미해결 문제 10개에서 새 결과를 냈다. OpenAI는 전체 해법 탐색의 토큰 비용을 Sol API 기준 약 $2,000로 제시했고, 각 결과를 Lean 증명서와 함께 공개했다.

#openai #astra #lean

Sciences Feb 16, 2026 1 min read

OpenAI, 160+ 정치학 저널·100만+ synthetic eval로 사회과학 재현연구 우선순위화

OpenAI는 160개 이상 정치학 저널 논문을 대상으로 100만 건 이상 synthetic evaluation을 수행해 재현연구 후보를 선별하는 방법을 공개했다. 논문 제목·초록 기반 예측과 실제 표본 결과의 불일치를 활용해, 검증 가치가 높은 연구를 찾는 접근이다.

#openai #social-science #reproducibility

Sciences May 3, 2026 1 min read

하버드 연구: OpenAI o1이 응급실 의사보다 높은 진단 정확도—Science 논문

하버드 의대와 Beth Israel Deaconess가 Science에 게재한 연구에서 OpenAI o1 모델이 실제 응급실 케이스 76건 중 67%를 정확히 진단했다. 두 내과 전문의의 정확도(55%, 50%)를 웃도는 결과다.

#openai #healthcare #research

Related Articles

Astra가 10개 난제를 Lean 증명서로 검증한 OpenAI의 연구 승부수

OpenAI, 160+ 정치학 저널·100만+ synthetic eval로 사회과학 재현연구 우선순위화

하버드 연구: OpenAI o1이 응급실 의사보다 높은 진단 정확도—Science 논문