Anthropic BioMysteryBench, 전문가가 막힌 생물 데이터 23문제 중 30% 돌파

바로 눈에 들어오는 숫자

생물 데이터 분석에서 중요한 건 정답 암기보다 엉킨 실험 데이터를 끝까지 다루는 능력이다. Anthropic은 4월 29일 X에 Claude를 99개 BioMysteryBench 과제로 돌렸고, 전문가 패널이 처음부터 풀지 못한 23개 문제 가운데 최신 모델이 약 30%를 해결했다고 적었다.

"On 23 problems, the experts were stumped. Our most recent models solved roughly 30% of those."

이 숫자가 흥미로운 이유는 벤치 구성이 일반적인 객관식 평가와 다르기 때문이다. 회사가 연결한 Science Blog에 따르면 BioMysteryBench는 raw 또는 최소 전처리 상태의 DNA, RNA, proteomics, metabolomics 데이터에서 출발한다. 질문도 연구자 해석이 아니라 검증 가능한 ground truth로 채점된다. 과제마다 최대 5명의 도메인 전문가가 도전했고, 품질 점검 뒤 76개는 human-solvable, 23개는 human-difficult로 남았다. Anthropic은 최신 Claude 세대가 전체적으로는 전문가와 비슷한 수준까지 올라왔고, 일부 문제는 인간과 다른 경로로 정답에 도달했다고 설명한다.

AI-for-science 평가 기준이 왜 달라지나

더 중요한 건 모델이 놓인 작업 환경이다. Anthropic 설명대로라면 Claude는 컨테이너 안에서 canonical bioinformatics tool을 쓰고, 필요하면 pip나 conda로 패키지를 더 깔 수 있으며, NCBI와 Ensembl 같은 공개 데이터베이스에도 접근한다. 단순한 QA 테스트가 아니라 계산생물학자가 실제로 맞닥뜨리는 작업 흐름에 가깝다. 몇몇 예시에서는 인간 전문가는 익숙한 annotation 도구와 알고리즘으로 접근한 반면, Claude는 패턴이나 서열 자체를 다른 방식으로 읽어내기도 했다.

Anthropic 공식 계정은 보통 나중에 제품 포지셔닝이나 system card로 이어질 연구를 먼저 꺼내 놓는 편이다. 그래서 이 트윗은 단순 성능 자랑보다 Claude의 다음 경쟁 무대가 어디인지 보여주는 신호에 가깝다. 앞으로 볼 지점은 두 가지다. BioMysteryBench가 다른 연구실도 같이 쓰는 외부 기준이 되는지, 그리고 경쟁 모델들도 깔끔한 학술 벤치 대신 이런 messy 데이터 기반 과제에서 수치를 내놓는지다. Source: Anthropic source tweet · Anthropic research post

Anthropic BioMysteryBench, 전문가가 막힌 생물 데이터 23문제 중 30% 돌파

바로 눈에 들어오는 숫자

AI-for-science 평가 기준이 왜 달라지나

Related Articles

Anthropic, Claude 생물정보학 99문항 실전 검증… 전문가 난제 23건 중 30% 돌파

Anthropic, AI 기반 연구 workflow와 성과를 다루는 Science Blog 시작

25 species mRNA language model 파이프라인, Hacker News에서 주목

Comments (0)

Leave a Comment