Anthropic, Claude 생물정보학 99문항 실전 검증… 전문가 난제 23건 중 30% 돌파

Original: New on the Science Blog: We gave Claude 99 problems analyzing real biological data and compared its performance against an expert panel. On 23 problems, the experts were stumped. Our most recent models solved roughly 30% of those—and most of the rest. View original →

Read in other languages: English日本語
Sciences Apr 30, 2026 By Insights AI 1 min read 1 views Source
Anthropic, Claude 생물정보학 99문항 실전 검증… 전문가 난제 23건 중 30% 돌파

AI의 바이오 역량 논쟁은 그동안 분위기와 추정이 앞섰다. Anthropic은 새 X 글에서 Claude를 실제 생물 데이터 기반 99문항에 투입해 전문가 패널과 비교했다고 적었다. 핵심은 평균점수보다 더 어려운 구간이다. 전문가도 막힌 23문항에서 최근 Claude 모델이 약 30%를 풀었고, 나머지 다수에서도 꽤 근접했다는 주장이다. 안전 담론과 역량 담론을 숫자와 문제셋으로 끌어내린 셈이다.

“We gave Claude 99 problems analyzing real biological data… On 23 problems, the experts were stumped.”

원문은 이 X 글이다. Anthropic 공식 계정은 소비자형 기능 홍보보다 safety, eval, interpretability 연구를 자주 올린다. 같은 시각 올라온 보조 글은 BioMysteryBench를 새로운 bioinformatics 평가로 소개한다. 링크 제목도 “Evaluating Claude’s bioinformatics research capabilities with BioMysteryBench”이다. 이 회사가 밀고 있는 포인트는 제품 출시가 아니라 현실 과제에서의 연구 보조 성능이다.

눈에 띄는 대목은 가장 어려운 구간을 전면에 내세웠다는 점이다. 쉬운 문제까지 섞은 평균값보다, 사람이 막히는 케이스에서 모델이 얼마나 버티는지가 더 중요한 잣대라는 메시지다. 실제 생물 데이터, 전문가 패널, open-ended problem이라는 세 단어가 같이 붙으면 규제기관과 제휴 연구실이 보는 질문도 달라진다. “챗봇이 똑똑한가”가 아니라 “어느 단계의 과학 작업에서 쓸 수 있는가”로 넘어간다.

다음 관전 포인트는 외부 검증이다. 모델별 세부 점수, 실패 유형, 재현 결과가 붙어야 BioMysteryBench는 일회성 홍보가 아니라 업계 기준으로 남는다. 그래도 이번 글 하나만으로도 분명해진 점이 있다. Anthropic은 Claude를 coding assistant를 넘어 측정 가능한 생물정보학 보조 도구 후보로 밀기 시작했다. 원문은 여기에서 확인할 수 있다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment