Google DeepMind와 EMBL-EBI, AlphaFold Database에 수백만 개 protein complex 구조 추가
Original: Millions of protein complexes added to AlphaFold Database View original →
Google DeepMind는 2026년 3월 17일 X를 통해 EMBL-EBI, NVIDIA, 서울대학교와 협력해 AlphaFold Database에 수백만 개의 AI-predicted protein complex structures를 추가한다고 밝혔다. 연결된 EMBL 발표에 따르면 이번 공개는 현재 일반에 제공되는 protein complex prediction 데이터셋 가운데 가장 큰 규모다.
규모 자체가 크다. Google DeepMind는 AlphaFold Database가 이미 전 세계 330만 명 이상 연구자에게 활용됐다고 설명했고, EMBL은 이 리소스가 190개국에서 340만 명 이상 사용자에게 제공됐다고 밝혔다. 협력진은 이미 3,000만 개 protein complexes에 대한 예측을 계산했으며, 첫 공개분은 170만 개의 high-confidence homodimers를 중심으로 이뤄진다. 여기에 1,800만 개의 lower-confidence homodimers도 발표 직후 FTP 경로를 통해 추가 공개될 예정이라고 밝혔다.
이 업데이트가 중요한 이유는 proteins가 거의 항상 상호작용 속에서 기능하기 때문이다. 단일 protein 구조만 다루는 데이터베이스도 매우 유용하지만, 대규모 protein complexes를 다루기 시작한 공개 자원은 disease research, drug discovery, 기본 cell biology 전반에서 더 큰 가치를 가질 수 있다. 협력진은 인간 건강과 질병 이해에 중요한 proteins를 우선시했으며, 20종의 대표 생물에서 나온 homodimers와 World Health Organization의 bacterial priority pathogens 목록 관련 단백질도 포함했다고 설명했다.
인프라 측면에서도 공개의 의미가 크다. EMBL은 동일한 계산을 다시 수행하려면 약 1,700만 GPU 시간이 필요하다고 밝혔다. 이는 대부분의 학술 연구실이 자체적으로 감당하기 어려운 규모다. 결과를 공개함으로써 연구자들은 전체 파이프라인을 재현하지 않고도 protein interaction 가설을 탐색할 수 있게 된다.
AI for science 관점에서 보면 이번 업데이트는 AlphaFold 생태계가 상징적 데모를 넘어 지속적으로 확장되는 knowledge platform으로 옮겨가고 있음을 보여준다. 연구자들이 predicted complexes를 experimental data와 함께 안정적으로 활용할 수 있다면 AlphaFold Database는 치료제 탐색과 분자생물학 연구의 초기 단계에서 더욱 핵심적인 공공 인프라가 될 가능성이 크다.
Related Articles
이건 단순 지역 홍보가 아니라 한국 정부가 Google DeepMind의 AI for Science 스택을 연구 인프라로 끌어들이는 움직임이다. 서울 AI Campus를 축으로 SNU·KAIST 협력이 예고됐고, 한국에서 이미 8.5만 명 넘게 쓰는 AlphaFold가 출발점으로 제시됐다.
중요한 이유는 생물학 평가가 이제 깔끔한 시험 문제가 아니라 실제 데이터 분석 흐름으로 옮겨가고 있기 때문이다. Anthropic은 Claude가 99개 bioinformatics 과제를 풀었고, 전문가 패널이 막힌 23개 중 약 30%를 해결했다고 적었다.
AI의 바이오 역량 논쟁에 처음으로 꽤 단단한 숫자가 붙었다. Anthropic은 Claude를 실제 생물 데이터 기반 99문항에 투입했고, 전문가도 막힌 23문항 가운데 최근 모델이 약 30%를 풀었다고 적었다.
Comments (0)
No comments yet. Be the first to comment!