앤스로픽 신규 벤치마크: 바이오정보학 분야 클로드 인간 전문가 수준
앤스로픽은 실제 생물학 데이터를 활용해 실무적 문제 해결 능력을 평가하는 신규 벤치마크 'BioMysteryBench'를 공개했습니다. 평가 결과 클로드 모델은 인간이 풀 수 있는 문제에서 인간 전문가와 맞먹는 수준의 성능을 보여주었으나, 매우 어려운 문제에서는 정답률이 불안정한 모습을 보였습니다.
앤스로픽(The new benchmark claims Claude can match human experts in bioinformatics)은 신규 벤치마크를 통해 클로드(Claude)가 실제 바이오정보학(bioinformatics) 문제를 전문가 수준에서 해결할 수 있음을 입증하고자 합니다. 결과는 유망하지만 중요한 주의 사항이 따릅니다.
AI 모델이 생물학 연구에서 실제로 어느 정도 성능을 발휘하는지 측정하는 것은 어렵습니다. 앤스로픽에 따르면 기존 벤치마크들은 각각의 맹점이 있습니다. MMLU-Pro나 GPQA 같은 지식 테스트는 사실적 지식은 확인하지만 실용적인 연구 기술은 평가하지 못합니다. 실제 데이터셋을 사용하는 BixBench 같은 벤치마크는 개별 과학자의 결론을 바탕으로 모델을 평가하지만, 이러한 결론 자체가 주관적이며 방법론적 선택의 영향을 받습니다. SciGym과 같은 시뮬레이션 실험실 환경은 명확한 정답은 있지만 현실적인 생물학 데이터의 복잡성과 잡음(noise)을 제대로 담아내지 못합니다.
이를 해결하기 위해 앤스로픽은 전문가들이 작성하고 실제 잡음이 포함된 데이터셋을 기반으로 한, 바이오정보학 여러 도메인에 걸친 99개의 질문으로 구성된 'BioMysteryBench'를 개발했습니다. 핵심 설계는 정답이 과학적 해석에서 도출되는 것이 아니라 데이터의 통제 가능하고 객관적으로 검증 가능한 속성이나 독립적으로 검증된 메타데이터에서 도출된다는 것입니다. 모든 질문 작성자는 데이터에 실제로 신호가 존재함을 증명하는 검증 노트북(validation notebook)을 제출해야만 했습니다. 이러한 접근 방식 덕분에 인간이 풀지 못할 수도 있는 질문을 던지는 것이 가능해졌습니다. 일반적인 작업에는 단일 세포 RNA 데이터셋이 어떤 장기에서 나왔는지 식별하거나, 실험 샘플에서 어떤 유전자가 녹아웃(knocked out)되었는지 알아내는 등의 것이 포함됩니다.
클로드는 바이오정보학 도구가 포함된 컨테이너, NCBI 및 Ensembl과 같은 데이터베이스에 대한 접근 권한, 그리고 자체적인 분석 방법을 선택할 수 있는 완전한 자유를 부여받습니다. 최종 답변만 채점되며 그 과정은 평가받지 않습니다.
해결 가능한 문제에서는 뛰어난 성능, 하지만 어려운 작업은 여전히 불안정해
앤스로픽은 작업을 두 그룹으로 나누었습니다. 최대 5명의 전문가 중 최소 1명이 정답을 찾아냈기 때문에 76개는 '인간이 풀 수 있는(human-solvable)' 문제로 간주되었습니다. 나머지 23개 작업은 모든 전문가를 꼼짝 못 하게 만들었습니다. 처음 계획되었던 4개의 질문은 잘못된 구성으로 인해 제거되어야만 했습니다. 남은 23개에 대해 앤스로픽은 이것이 근본적으로 불가능한지 아니면 단지 극도로 어려운 것인지 불분명하다고 인정했습니다. 더 크거나 구성이 다른 전문가 패널이 이를 해결할 수 있었을지도 열린 질문으로 남습니다.
앤스로픽에 따르면 해결 가능한 문제에서 클로드는 이제 인간 전문가의 성능과 일치합니다. 선정된 전문가 중 누구도 풀지 못한 어려운 문제에서는 Claude Mythos Preview 모델이 30%의 성공률을 달성했습니다.
그러나 앤스로픽이 Claude Mythos Preview 모델에 대해 스스로 실행하도록 한 일관성 분석은 조금 더 미묘한 그림을 보여줍니다. 각 작업은 5번씩 시도되었습니다. 해결 가능한 문제에서 클로드는 거의 항상 5번의 시도 모두에서 정답을 맞히거나 단 한 번도 맞히지 못했습니다. 어려운 문제에서는 5번의 시도 중 1~2번 정도만 성공하는 것이 일반적이었습니다. 즉, 모델이 재현 가능한 전략을 따르기보다는 우연히 운이 좋은 해결책을 찾아내는 것에 가깝습니다.
앤스로픽은 클로드를 인간 테스터와 차별화하는 두 가지 전략을 확인했습니다. 모델은 방대한 지식 기반을 바탕으로 정보를 직접 진행 중인 분석과 결합합니다. 불확실할 때 클로드는 여러 방법을 겹겹이 포개어 적용한 뒤, 서로 다른 접근 방식이 수렴하는 답변을 선택합니다.
제넨텍(Genentech)과 로슈(Roche)가 동시에 개발하여 유사한 결과를 보여주는 비슷한 설계의 벤치마크인 CompBioBench에서 독립적인 확인을 얻을 수 있었습니다. BioMysteryBench는 Hugging Face에서 이용할 수 있습니다.