Anthropic, Claude 생물정보학 99문항 실전 검증… 전문가 난제 23건 중 30% 돌파
Original: New on the Science Blog: We gave Claude 99 problems analyzing real biological data and compared its performance against an expert panel. On 23 problems, the experts were stumped. Our most recent models solved roughly 30% of those—and most of the rest. View original →
AI의 바이오 역량 논쟁은 그동안 분위기와 추정이 앞섰다. Anthropic은 새 X 글에서 Claude를 실제 생물 데이터 기반 99문항에 투입해 전문가 패널과 비교했다고 적었다. 핵심은 평균점수보다 더 어려운 구간이다. 전문가도 막힌 23문항에서 최근 Claude 모델이 약 30%를 풀었고, 나머지 다수에서도 꽤 근접했다는 주장이다. 안전 담론과 역량 담론을 숫자와 문제셋으로 끌어내린 셈이다.
“We gave Claude 99 problems analyzing real biological data… On 23 problems, the experts were stumped.”
원문은 이 X 글이다. Anthropic 공식 계정은 소비자형 기능 홍보보다 safety, eval, interpretability 연구를 자주 올린다. 같은 시각 올라온 보조 글은 BioMysteryBench를 새로운 bioinformatics 평가로 소개한다. 링크 제목도 “Evaluating Claude’s bioinformatics research capabilities with BioMysteryBench”이다. 이 회사가 밀고 있는 포인트는 제품 출시가 아니라 현실 과제에서의 연구 보조 성능이다.
눈에 띄는 대목은 가장 어려운 구간을 전면에 내세웠다는 점이다. 쉬운 문제까지 섞은 평균값보다, 사람이 막히는 케이스에서 모델이 얼마나 버티는지가 더 중요한 잣대라는 메시지다. 실제 생물 데이터, 전문가 패널, open-ended problem이라는 세 단어가 같이 붙으면 규제기관과 제휴 연구실이 보는 질문도 달라진다. “챗봇이 똑똑한가”가 아니라 “어느 단계의 과학 작업에서 쓸 수 있는가”로 넘어간다.
다음 관전 포인트는 외부 검증이다. 모델별 세부 점수, 실패 유형, 재현 결과가 붙어야 BioMysteryBench는 일회성 홍보가 아니라 업계 기준으로 남는다. 그래도 이번 글 하나만으로도 분명해진 점이 있다. Anthropic은 Claude를 coding assistant를 넘어 측정 가능한 생물정보학 보조 도구 후보로 밀기 시작했다. 원문은 여기에서 확인할 수 있다.
Related Articles
Anthropic는 2026년 3월 23일 AI가 연구 관행과 scientific discovery를 어떻게 바꾸는지에 초점을 맞춘 Science Blog를 시작한다고 밝혔다. 새 블로그는 feature story, workflow guide, field note를 통해 Anthropic의 AI-for-science 전략을 더 지속적인 프로그램으로 보여 준다.
OpenAI는 ChatGPT가 science와 mathematics에서 이미 research-scale로 쓰이고 있다고 밝혔다. 2026년 1월 보고서에 따르면 advanced science·math usage는 주당 8.4 million messages, weekly users는 약 1.3 million에 이르렀고, GPT-5.2는 serious mathematical work에서도 초기 성과를 보이기 시작했다.
Hacker News에서 화제가 된 OpenMed의 글은 ESMFold, ProteinMPNN, CodonRoBERTa를 연결한 단백질 설계 파이프라인과 25 species 확장 결과를 공개했다. 저비용 open research 사례로 주목받았지만, HN 댓글에서는 biological validation 한계도 함께 지적됐다.
Comments (0)
No comments yet. Be the first to comment!