생물학 에이전트 정확도, gget virus 결합 뒤 거의 100%로 상승
Original: Biology agents approach 100% accuracy when deterministic retrieval is added View original →
생물학 연구 에이전트의 실전 투입에서 가장 약한 고리는 추론보다 데이터 접근 방식일 수 있다. Anthropic은 2026년 6월 8일 게시한 트윗에서 “Why has AI advanced faster in coding than in biology?”라고 물으며, 생물학 데이터베이스가 에이전트에게는 사람 중심으로 지어진 낡은 도시처럼 작동한다고 설명했다.
핵심 수치는 정확도다. Anthropic의 연결 글은 Claude, Biomni Open Source, Edison Analysis, GPT 계열 에이전트가 NCBI Virus에서 서열 데이터를 찾는 과제를 수행했을 때 안정적으로 필요한 수준에 도달하지 못했지만, gget virus라는 결정론적 검색 계층을 붙인 뒤 정확도가 거의 100%까지 상승했다고 밝혔다. 이는 더 큰 모델을 기다리는 문제라기보다, 연구 데이터베이스와 검증 경로를 에이전트가 호출 가능한 형태로 재설계해야 한다는 신호다.
Anthropic은 안전성, 해석 가능성, 신뢰 가능한 AI 시스템을 주로 다루는 연구 회사다. 이번 글은 모델 공개보다 연구 인프라 논점에 가깝지만, 신약 설계, 감염병 감시, 생물학 모델링처럼 오류 비용이 큰 분야에서는 더 직접적이다. 잘못된 genome build, RefSeq와 GenBank 레코드 혼합, 불완전한 바이러스 게놈 선택 같은 작은 실수가 후속 해석 전체를 망칠 수 있기 때문이다.
다음 관전점은 생물정보학 도구들이 API, 패키지, 검증 가능한 retrieval layer를 얼마나 빨리 표준화하느냐다. 연구 에이전트가 논문을 읽는 데서 멈추지 않고 데이터셋을 구성하려면, 데이터베이스 자체가 사람의 클릭 흐름이 아니라 에이전트의 반복 호출과 검산을 전제로 바뀌어야 한다.
Related Articles
Microsoft Discovery가 6월 2일 모든 조직 대상 정식 제공으로 전환됐다. 과학·엔지니어링 R&D에서 전문 agent, 지식, 시뮬레이션, 검증 데이터를 묶고, 개인 연구자용 로컬 앱은 preview로 열렸다.
NMR 구조 해석은 합성화학의 병목인데, Anthropic은 Opus 4.7이 20개 화합물 평가에서 ChemDraw·MestReNova와 경쟁했다고 밝혔다. 수소 NMR 평균 오차는 약 ±0.079 ppm이었다.
Anthropic는 2026년 3월 23일 모든 long-horizon task가 다수 agent 분할에 적합한 것은 아니라고 밝혔다. 연결된 연구 글에서 Anthropic는 Claude Opus 4.6, persistent memory, orchestration pattern, test oracle을 활용해 differentiable cosmological Boltzmann solver를 구현하는 방식을 설명한다.