Hacker News • 118일 전

25개 생물종 mRNA 언어모델, 단 165달러에 학습

IMP

7/10

핵심 요약

단백질 구조 예측부터 서열 설계, 코돈 최적화(Codon optimization)까지 아우르는 엔드투엔드 AI 파이프라인이 구축되었습니다. 코돈 수준의 언어 모델링 비교 결과 'CodonRoBERTa-large-v2'가 4.10의 퍼플렉시티와 0.40의 스피어만 CAI 상관관계를 기록하며 기존 모델을 크게 상회하는 성능을 입증했습니다. 25개 생물종을 대상으로 단 55 GPU시간만에 4개의 실 서비스용 모델을 학습하여, 타 오픈소스에서 제공하지 않는 종 조건부(species-conditioned) 시스템을 완성했다는 점이 핵심입니다.

번역된 본문

우리는 구조 예측, 서열 설계 및 코돈 최적화(Codon optimization)를 포괄하는 엔드투엔드 단백질 AI 파이프라인을 구축했습니다. 코돈 수준의 언어 모델링을 위해 여러 트랜스포머(Transformer) 아키텍처를 비교한 결과, CodonRoBERTa-large-v2가 4.10의 퍼플렉시티(Perplexity)와 0.40의 스피어만 CAI 상관관계(Spearman CAI correlation)를 기록하며 ModernBERT를 크게 상회하는 명확한 승자로 부상했습니다. 이후 우리는 25개 생물종으로 규모를 확장하여 55 GPU시간 동안 4개의 프로덕션(Production) 모델을 학습했으며, 다른 어떤 오픈소스 프로젝트에서도 제공하지 않는 종 조건부 시스템을 구축했습니다. 아래에서 전체 결과와 아키텍처 결정 과정, 그리고 실행 가능한 코드를 확인할 수 있습니다.

원문 보기

원문 보기 (영어)

We built an end-to-end protein AI pipeline covering structure prediction, sequence design, and codon optimization. After comparing multiple transformer architectures for codon-level language modeling, CodonRoBERTa-large-v2 emerged as the clear winner with a perplexity of 4.10 and a Spearman CAI correlation of 0.40, significantly outperforming ModernBERT. We then scaled to 25 species, trained 4 production models in 55 GPU-hours, and built a species-conditioned system that no other open-source project offers. Complete results, architectural decisions, and runnable code below.

생물정보학 mRNA 언어모델 오픈소스 바이오AI