생물학 에이전트 정확도, gget virus 결합 뒤 거의 100%로 상승

생물학 연구 에이전트의 실전 투입에서 가장 약한 고리는 추론보다 데이터 접근 방식일 수 있다. Anthropic은 2026년 6월 8일 게시한 트윗에서 “Why has AI advanced faster in coding than in biology?”라고 물으며, 생물학 데이터베이스가 에이전트에게는 사람 중심으로 지어진 낡은 도시처럼 작동한다고 설명했다.

핵심 수치는 정확도다. Anthropic의 연결 글은 Claude, Biomni Open Source, Edison Analysis, GPT 계열 에이전트가 NCBI Virus에서 서열 데이터를 찾는 과제를 수행했을 때 안정적으로 필요한 수준에 도달하지 못했지만, gget virus라는 결정론적 검색 계층을 붙인 뒤 정확도가 거의 100%까지 상승했다고 밝혔다. 이는 더 큰 모델을 기다리는 문제라기보다, 연구 데이터베이스와 검증 경로를 에이전트가 호출 가능한 형태로 재설계해야 한다는 신호다.

Anthropic은 안전성, 해석 가능성, 신뢰 가능한 AI 시스템을 주로 다루는 연구 회사다. 이번 글은 모델 공개보다 연구 인프라 논점에 가깝지만, 신약 설계, 감염병 감시, 생물학 모델링처럼 오류 비용이 큰 분야에서는 더 직접적이다. 잘못된 genome build, RefSeq와 GenBank 레코드 혼합, 불완전한 바이러스 게놈 선택 같은 작은 실수가 후속 해석 전체를 망칠 수 있기 때문이다.

다음 관전점은 생물정보학 도구들이 API, 패키지, 검증 가능한 retrieval layer를 얼마나 빨리 표준화하느냐다. 연구 에이전트가 논문을 읽는 데서 멈추지 않고 데이터셋을 구성하려면, 데이터베이스 자체가 사람의 클릭 흐름이 아니라 에이전트의 반복 호출과 검산을 전제로 바뀌어야 한다.

Sciences Jul 1, 2026 2 min read

Claude Science, 60개 이상 연구 skill로 논문·계산 검증까지 한 작업대

연구용 AI가 채팅창이 아니라 재현 가능한 작업 환경으로 이동한다. Claude Science는 60개 이상 과학 skill·connector, reviewer agent, HPC/SSH/Modal 연동을 묶고 최대 50개 프로젝트에 $30,000 크레딧을 지원한다.

#anthropic #claude-science #ai-for-science

Sciences X/Twitter Mar 27, 2026 1 min read

Anthropic, 장시간 scientific computing에 맞춘 단일 Claude agent 운영 방식을 공개

Anthropic는 2026년 3월 23일 모든 long-horizon task가 다수 agent 분할에 적합한 것은 아니라고 밝혔다. 연결된 연구 글에서 Anthropic는 Claude Opus 4.6, persistent memory, orchestration pattern, test oracle을 활용해 differentiable cosmological Boltzmann solver를 구현하는 방식을 설명한다.

#anthropic #claude #scientific-computing

Sciences X/Twitter Jul 1, 2026 1 min read

GeneBench-Pro, 생물학 에이전트 평가를 129개 연구 문제로 끌어올린 새 기준

생물학용 AI 에이전트 평가는 단순 Q&A에서 실제 연구 판단 재현으로 이동하고 있다. OpenAI의 GeneBench-Pro는 129개 계산생물학 문제를 제시하며, GPT-5.6 Sol도 최고 추론 설정에서 28.7%, Pro mode에서 31.5%에 그쳤다.

#openai #genebench-pro #biology

Related Articles

Claude Science, 60개 이상 연구 skill로 논문·계산 검증까지 한 작업대

Anthropic, 장시간 scientific computing에 맞춘 단일 Claude agent 운영 방식을 공개

GeneBench-Pro, 생물학 에이전트 평가를 129개 연구 문제로 끌어올린 새 기준