Google DeepMind AlphaGenome 공개: 100만 DNA 서열 기반 변이 효과 예측 통합 모델

유전체 해석의 병목을 겨냥한 통합 DNA 시퀀스 모델

Google DeepMind는 2025년 6월 25일 AlphaGenome: AI for better understanding the genome를 공개하고, 관련 연구가 Nature에 게재됐다고 밝혔다. 회사 설명에 따르면 AlphaGenome은 단일 모델로 긴 DNA 맥락과 염기(base) 수준 해상도를 동시에 다루며, 유전자 조절과 변이 효과를 다중 과제로 예측하도록 설계됐다. DeepMind는 이 모델을 비상업 연구 목적으로 AlphaGenome API 프리뷰 형태로 제공하고, 향후 모델 공개를 계획한다고 덧붙였다.

핵심 차별점은 입력 길이와 출력 폭이다. AlphaGenome은 최대 1 million DNA letters를 처리하며, 유전자 시작·종료 지점, splice 신호, RNA 발현량, 접근성 등 다양한 분자 특성을 동시에 예측한다. 변이 평가에서는 변이 서열과 비변이 서열의 예측 차이를 계산해 영향도를 요약한다.

성능 지표: 단일 모델로 다중 모달리티 벤치마크 대응

DeepMind가 제시한 결과에서 AlphaGenome은 단일 DNA 시퀀스 예측 과제 24개 중 22개에서 외부 최고 모델을 상회했고, 변이 조절 효과 예측 과제 26개 중 24개에서 최고 수준과 동등하거나 우수한 성능을 보였다. 특히 회사는 AlphaGenome이 평가된 모든 모달리티를 하나의 모델에서 공동 예측할 수 있었다는 점을 강조했다.

기술적 구현 측면에서 AlphaGenome은 convolutional layers, transformers, modality별 출력 계층을 결합한 구조를 사용한다. 또한 DeepMind는 distillation 없는 단일 AlphaGenome 학습이 four hours가 걸렸고, 기존 Enformer 학습에 쓰였던 compute budget의 half 수준이었다고 밝혔다. 이는 긴 문맥·고해상도 예측을 동시에 달성하면서도 학습 자원 효율을 개선했다는 주장으로 해석된다.

활용 가능성과 제한사항을 함께 제시

DeepMind는 AlphaGenome의 잠재 활용처로 질병 관련 변이 해석, 합성 DNA 설계, 기본 생물학 연구 가속을 제시했다. 예시로는 비암호화 영역 변이가 특정 질환 메커니즘과 연결될 수 있는 가설 탐색을 언급했다. 다만 회사는 중요한 제한도 명확히 밝혔다. 100,000 DNA letters 이상 떨어진 원거리 조절 요소의 영향은 여전히 도전 과제로 남아 있고, 모델은 personal genome prediction용으로 설계·검증되지 않았으며 direct clinical purposes에도 적합하지 않다는 점이다.

요약하면 AlphaGenome의 의미는 “특화 모델 여러 개를 조합하던 작업”을 “하나의 통합 예측 스택”으로 줄이는 데 있다. 유전체 AI가 연구 현장에서 실제 가설 생성과 검증 속도를 높이는 방향으로 이동하고 있다는 신호로 볼 수 있다.

Google DeepMind AlphaGenome 공개: 100만 DNA 서열 기반 변이 효과 예측 통합 모델

유전체 해석의 병목을 겨냥한 통합 DNA 시퀀스 모델

성능 지표: 단일 모델로 다중 모달리티 벤치마크 대응

활용 가능성과 제한사항을 함께 제시

Related Articles

BMS, Vera Rubin 8랙으로 전 연구자용 drug discovery AI 공장 구축

Google DeepMind, DOE Genesis Mission에 $40M AI 크레딧 투입

초당 100,000장 실험 데이터, Meta 모델이 DOE beamline 병목으로