25 species対応mRNA language modelパイプラインがHacker Newsで注目
Original: Training mRNA Language Models Across 25 Species for $165 View original →
2026年4月5日時点でHacker News上で目立っていたbio/AI系の投稿の一つが、Training mRNA Language Models Across 25 Species for $165だった。クロール時点で138 points、32 commentsを集めており、リンク先は2026年3月31日に公開されたOpenMedのHugging Face community articleだ。
重要なのは、これは単一のmodel公開ではなく、end-to-end pipelineの記録だという点だ。OpenMedはESMFoldでstructure predictionを行い、ProteinMPNNでsequence designを進め、その後CodonRoBERTaでcodon optimizationを実施している。狙いもかなり実務寄りで、治療用proteinのアイデアから出発し、3D structureを予測し、その形状を作るamino acid sequenceを設計し、最後に対象生物で発現しやすいDNA codonへ落とし込む流れを一つの公開workflowとして整理している。
技術的に最も重要なのはcodon optimizationの比較実験だ。記事によれば、OpenMedは250,000件のE. coli coding sequencesを使って複数のtransformer architectureを比較し、最終的にCodonRoBERTa-large-v2が最良の総合結果を示した。公開されている数字も具体的で、perplexity 4.10、Spearman CAI correlation 0.404、そしてModernBERTに対する明確な優位が示されている。著者たちはここで、単純なMLM lossよりもdomain-specific metricの方が重要だと強調している。masked codonを当てる性能が高くても、biological codon preferenceを学べていなければ、有用なmodelとは言えないという整理だ。
multi-speciesへの拡張も興味深い。OpenMedは25 speciesをカバーする4つのproduction modelを55 GPU-hoursで学習したと説明している。同じ記事では、ESMFoldが30本のprotein chainsで平均PTM 0.79、ProteinMPNNがscaffold 7K00で42%のsequence recoveryを記録したとも報告されている。これだけでtherapeutic utilityが証明されたわけではないが、少なくとも曖昧な「AI for biology」ではなく、再現可能性を意識したengineering checkpointを伴う公開作業になっている。
HNのコメント欄も建設的に割れていた。あるコメントはtraining dataの検証可能性や、出力が本当にbiologically usefulかどうかに疑問を投げかけた。一方で、structural biologistだと名乗る参加者は、実際に機能するなら非常に有用だと評価している。この温度感が妥当だろう。open researchとしては低コストで具体性のある前進だが、最終的なボトルネックがwet-lab validationであることは変わっていない。
Related Articles
生命科学AIは文献支援から実行可能な研究workflowへ進んでいる。OpenAIはGPT-RosalindがMedChemBench 27.5%、GeneBench 21.6%、LabWorkBench 63.2%を記録したと示した。
Microsoft Discoveryが6月2日に一般提供へ移行した。科学・工学R&Dで専門agent、組織知、シミュレーション、検証データをつなぎ、研究者向けローカルアプリもpreviewで公開された。
Anthropicは科学AIの課題を、モデルの推論力だけでなくデータ検索基盤の問題として示した。NCBI Virusの検索課題では、gget virusを加えると精度がほぼ100%まで上がった。