25 species対応mRNA language modelパイプラインがHacker Newsで注目
Original: Training mRNA Language Models Across 25 Species for $165 View original →
2026年4月5日時点でHacker News上で目立っていたbio/AI系の投稿の一つが、Training mRNA Language Models Across 25 Species for $165だった。クロール時点で138 points、32 commentsを集めており、リンク先は2026年3月31日に公開されたOpenMedのHugging Face community articleだ。
重要なのは、これは単一のmodel公開ではなく、end-to-end pipelineの記録だという点だ。OpenMedはESMFoldでstructure predictionを行い、ProteinMPNNでsequence designを進め、その後CodonRoBERTaでcodon optimizationを実施している。狙いもかなり実務寄りで、治療用proteinのアイデアから出発し、3D structureを予測し、その形状を作るamino acid sequenceを設計し、最後に対象生物で発現しやすいDNA codonへ落とし込む流れを一つの公開workflowとして整理している。
技術的に最も重要なのはcodon optimizationの比較実験だ。記事によれば、OpenMedは250,000件のE. coli coding sequencesを使って複数のtransformer architectureを比較し、最終的にCodonRoBERTa-large-v2が最良の総合結果を示した。公開されている数字も具体的で、perplexity 4.10、Spearman CAI correlation 0.404、そしてModernBERTに対する明確な優位が示されている。著者たちはここで、単純なMLM lossよりもdomain-specific metricの方が重要だと強調している。masked codonを当てる性能が高くても、biological codon preferenceを学べていなければ、有用なmodelとは言えないという整理だ。
multi-speciesへの拡張も興味深い。OpenMedは25 speciesをカバーする4つのproduction modelを55 GPU-hoursで学習したと説明している。同じ記事では、ESMFoldが30本のprotein chainsで平均PTM 0.79、ProteinMPNNがscaffold 7K00で42%のsequence recoveryを記録したとも報告されている。これだけでtherapeutic utilityが証明されたわけではないが、少なくとも曖昧な「AI for biology」ではなく、再現可能性を意識したengineering checkpointを伴う公開作業になっている。
HNのコメント欄も建設的に割れていた。あるコメントはtraining dataの検証可能性や、出力が本当にbiologically usefulかどうかに疑問を投げかけた。一方で、structural biologistだと名乗る参加者は、実際に機能するなら非常に有用だと評価している。この温度感が妥当だろう。open researchとしては低コストで具体性のある前進だが、最終的なボトルネックがwet-lab validationであることは変わっていない。
Related Articles
Cloudflare の roadmap をめぐる HN 議論は、直接的な IT 意味を持つ security story を浮かび上がらせた。最近の quantum と algorithm の進展により migration timeline が縮んだとして、同社は authentication を含む full post-quantum protection の目標を 2029年に置いている。
Google DeepMindはXで、EMBL-EBI、NVIDIA、ソウル大学と協力し、AlphaFold Databaseに数百万件のAI-predicted protein complex structuresを追加すると発表した。AlphaFoldを単一protein予測からprotein interactions研究のための公開基盤へ拡張する動きとして注目される。
OpenAIのKevin Weilは2026年4月7日のXで、Prismの新機能Paper Reviewを紹介した。このworkflowはgrammar correctionを超えて、math、notation、units、structure、evidence supportを点検し、その結果をeditable LaTeX review fileとしてproject内に書き戻すという。
Comments (0)
No comments yet. Be the first to comment!