25 species mRNA language model 파이프라인, Hacker News에서 주목
Original: Training mRNA Language Models Across 25 Species for $165 View original →
2026년 4월 5일 기준 Hacker News에서 눈에 띈 bio/AI 글 가운데 하나는 Training mRNA Language Models Across 25 Species for $165였다. 이 제출물은 크롤링 시점에 138 points와 32 comments를 기록했고, 2026년 3월 31일 공개된 OpenMed의 Hugging Face community article로 이어진다.
핵심은 단일 model 발표가 아니라 end-to-end pipeline이다. OpenMed는 ESMFold로 structure prediction을 수행하고, ProteinMPNN으로 sequence design을 거친 뒤, CodonRoBERTa로 codon optimization을 처리한다. 목표도 비교적 실용적이다. 치료용 단백질 아이디어에서 출발해 3D structure를 예측하고, 그 구조를 만들 amino acid sequence를 설계한 다음, 특정 생물에서 더 잘 발현되도록 DNA codon을 고르는 흐름을 공개적으로 정리했다.
기술적으로 가장 중요한 부분은 codon optimization 비교 실험이다. 글에 따르면 OpenMed는 250,000개의 E. coli coding sequences를 사용해 여러 transformer 아키텍처를 비교했고, CodonRoBERTa-large-v2가 최종적으로 가장 균형 잡힌 결과를 냈다. 보고된 수치는 구체적이다. perplexity 4.10, Spearman CAI correlation 0.404, 그리고 ModernBERT 대비 뚜렷한 우위다. 저자들은 여기서 단순 MLM loss보다 domain metric이 더 중요하다고 강조한다. masked codon 예측 정확도가 좋아도, 실제 biological codon preference를 제대로 학습하지 못하면 실험적으로 쓸모 있는 model이라고 보기 어렵다는 뜻이다.
multi-species 확장도 흥미롭다. OpenMed는 25개 종을 커버하는 4개의 production model을 55 GPU-hours 안에 학습했다고 설명한다. 같은 글에서 ESMFold는 30개 protein chains에서 평균 PTM 0.79를, ProteinMPNN은 scaffold 7K00에서 42% sequence recovery를 기록했다고 제시한다. 이것만으로 therapeutic utility가 증명되지는 않지만, 적어도 막연한 “AI for biology”가 아니라 재현 가능한 engineering checkpoint를 포함한 공개 작업이라는 점은 분명하다.
HN 댓글 반응도 균형적이었다. 일부는 training data의 검증 가능성과 predicted output의 biological usefulness에 의문을 제기했고, 반대로 structural biology 현업이라고 밝힌 댓글은 실제로 작동한다면 매우 유용할 수 있다고 평가했다. 지금 단계에서 이 프로젝트를 보는 가장 정확한 시각은 이렇다. open research 관점에서는 충분히 저비용이고 구체적이지만, 실제 wet-lab validation이 병목이라는 사실은 전혀 바뀌지 않았다.
Related Articles
Cloudflare의 추적 사이트는 여전히 답을 "No"로 두고 있지만, 2026년 2월 Sparkle을 포함한 대형 사업자들의 RPKI 도입 진전이 누적되고 있다.
Meta는 2026년 3월 26일 X에서 TRIBE v2를 공개하며 sight·sound·language에 대한 human brain response를 예측하는 foundation model이라고 설명했다. 논문과 demo는 zero-shot generalization, 70,000 voxels 규모 예측, 공개된 paper·code·model weights를 핵심 포인트로 제시한다.
NVIDIAAIDev는 2026년 3월 31일 X에서 Ohio State와 함께한 BioCLIP 2가 대규모 species identification과 ecological pattern 발견에 쓰일 수 있다고 밝혔다. 연결된 NVIDIA 사례 페이지는 TreeOfLife-200M 기반 모델이 A100·H100 GPU로 학습됐고, 거의 100만 taxa 규모에서 species identification과 zero-shot recognition 부문 최고 혹은 top-two 성능을 기록했다고 설명한다.
Comments (0)
No comments yet. Be the first to comment!