Training mRNA Language Models Across 25 Species for $165

> Source: Hacker_News

タンパク質設計におけるコドン最適化や配列設計の効率化が課題である。従来のモデルでは、多様な生物種に対応した高度な言語モデルの構築や、計算コストの抑制、種ごとの特性を考慮した設計が困難であった。

構造予測からコドン最適化までをカバーするパイプラインを構築。複数のTransformerアーキテクチャを比較検討し、CodonRoBERTa-large-v2を採用した。25種のデータを用い、55 GPU時間で4つのプロダクションモデルを訓練した。

CodonRoBERTa-large-v2は、ModernBERTを大きく上回る性能を示した（Perplexity 4.10、Spearman CAI相関 0.40）。また、オープンソースでは類を見ない種条件付き（species-conditioned）システムの構築に成功した。

> 低コストでの種横断モデル構築は実用的だが、学習データの構造情報の正確性と、予測結果の生物学的妥当性の乖離については、今後の検証が不可欠である。