25 species対応mRNA language modelパイプラインがHacker Newsで注目

2026年4月5日時点でHacker News上で目立っていたbio/AI系の投稿の一つが、Training mRNA Language Models Across 25 Species for $165だった。クロール時点で138 points、32 commentsを集めており、リンク先は2026年3月31日に公開されたOpenMedのHugging Face community articleだ。

重要なのは、これは単一のmodel公開ではなく、end-to-end pipelineの記録だという点だ。OpenMedはESMFoldでstructure predictionを行い、ProteinMPNNでsequence designを進め、その後CodonRoBERTaでcodon optimizationを実施している。狙いもかなり実務寄りで、治療用proteinのアイデアから出発し、3D structureを予測し、その形状を作るamino acid sequenceを設計し、最後に対象生物で発現しやすいDNA codonへ落とし込む流れを一つの公開workflowとして整理している。

技術的に最も重要なのはcodon optimizationの比較実験だ。記事によれば、OpenMedは250,000件のE. coli coding sequencesを使って複数のtransformer architectureを比較し、最終的にCodonRoBERTa-large-v2が最良の総合結果を示した。公開されている数字も具体的で、perplexity 4.10、Spearman CAI correlation 0.404、そしてModernBERTに対する明確な優位が示されている。著者たちはここで、単純なMLM lossよりもdomain-specific metricの方が重要だと強調している。masked codonを当てる性能が高くても、biological codon preferenceを学べていなければ、有用なmodelとは言えないという整理だ。

multi-speciesへの拡張も興味深い。OpenMedは25 speciesをカバーする4つのproduction modelを55 GPU-hoursで学習したと説明している。同じ記事では、ESMFoldが30本のprotein chainsで平均PTM 0.79、ProteinMPNNがscaffold 7K00で42%のsequence recoveryを記録したとも報告されている。これだけでtherapeutic utilityが証明されたわけではないが、少なくとも曖昧な「AI for biology」ではなく、再現可能性を意識したengineering checkpointを伴う公開作業になっている。

HNのコメント欄も建設的に割れていた。あるコメントはtraining dataの検証可能性や、出力が本当にbiologically usefulかどうかに疑問を投げかけた。一方で、structural biologistだと名乗る参加者は、実際に機能するなら非常に有用だと評価している。この温度感が妥当だろう。open researchとしては低コストで具体性のある前進だが、最終的なボトルネックがwet-lab validationであることは変わっていない。

25 species対応mRNA language modelパイプラインがHacker Newsで注目

Related Articles

BMS、Vera Rubin 8ラックでdrug discovery用AI工場を全研究者へ

毎秒100,000枚の実験データ、Metaモデルがbeamline解析へ

13,917人の症状対話で試したGoogle SymptomAI、医師DDxとの比較へ

Related Articles

BMS、Vera Rubin 8ラックでdrug discovery用AI工場を全研究者へ

毎秒100,000枚の実験データ、Metaモデルがbeamline解析へ
DOEのlight source施設では、データ生成速度が人手の解析を超え始めている。MetaはBerkeley LabのSYNAPS-IがSAM 3とDINOv3を使い、毎秒100,000枚級のdetector画像に対応すると説明した。

13,917人の症状対話で試したGoogle SymptomAI、医師DDxとの比較へ
Google ResearchのSymptomAI研究は、整理済みの医療ケースではなく13,917人の実際の症状対話を評価対象にした。焦点は回答精度だけでなく、問診設計、臨床医比較、Fitbitのbiosignalとの照合に移っている。