25 species mRNA language model 파이프라인, Hacker News에서 주목

2026년 4월 5일 기준 Hacker News에서 눈에 띈 bio/AI 글 가운데 하나는 Training mRNA Language Models Across 25 Species for $165였다. 이 제출물은 크롤링 시점에 138 points와 32 comments를 기록했고, 2026년 3월 31일 공개된 OpenMed의 Hugging Face community article로 이어진다.

핵심은 단일 model 발표가 아니라 end-to-end pipeline이다. OpenMed는 ESMFold로 structure prediction을 수행하고, ProteinMPNN으로 sequence design을 거친 뒤, CodonRoBERTa로 codon optimization을 처리한다. 목표도 비교적 실용적이다. 치료용 단백질 아이디어에서 출발해 3D structure를 예측하고, 그 구조를 만들 amino acid sequence를 설계한 다음, 특정 생물에서 더 잘 발현되도록 DNA codon을 고르는 흐름을 공개적으로 정리했다.

기술적으로 가장 중요한 부분은 codon optimization 비교 실험이다. 글에 따르면 OpenMed는 250,000개의 E. coli coding sequences를 사용해 여러 transformer 아키텍처를 비교했고, CodonRoBERTa-large-v2가 최종적으로 가장 균형 잡힌 결과를 냈다. 보고된 수치는 구체적이다. perplexity 4.10, Spearman CAI correlation 0.404, 그리고 ModernBERT 대비 뚜렷한 우위다. 저자들은 여기서 단순 MLM loss보다 domain metric이 더 중요하다고 강조한다. masked codon 예측 정확도가 좋아도, 실제 biological codon preference를 제대로 학습하지 못하면 실험적으로 쓸모 있는 model이라고 보기 어렵다는 뜻이다.

multi-species 확장도 흥미롭다. OpenMed는 25개 종을 커버하는 4개의 production model을 55 GPU-hours 안에 학습했다고 설명한다. 같은 글에서 ESMFold는 30개 protein chains에서 평균 PTM 0.79를, ProteinMPNN은 scaffold 7K00에서 42% sequence recovery를 기록했다고 제시한다. 이것만으로 therapeutic utility가 증명되지는 않지만, 적어도 막연한 “AI for biology”가 아니라 재현 가능한 engineering checkpoint를 포함한 공개 작업이라는 점은 분명하다.

HN 댓글 반응도 균형적이었다. 일부는 training data의 검증 가능성과 predicted output의 biological usefulness에 의문을 제기했고, 반대로 structural biology 현업이라고 밝힌 댓글은 실제로 작동한다면 매우 유용할 수 있다고 평가했다. 지금 단계에서 이 프로젝트를 보는 가장 정확한 시각은 이렇다. open research 관점에서는 충분히 저비용이고 구체적이지만, 실제 wet-lab validation이 병목이라는 사실은 전혀 바뀌지 않았다.

25 species mRNA language model 파이프라인, Hacker News에서 주목

Related Articles

BMS, Vera Rubin 8랙으로 전 연구자용 drug discovery AI 공장 구축

Google DeepMind, DOE Genesis Mission에 $40M AI 크레딧 투입

초당 100,000장 실험 데이터, Meta 모델이 DOE beamline 병목으로