메뉴
BL
The Decoder 30일 전

앤스로픽 신규 벤치마크: 바이오정보학 분야 클로드 인간 전문가 수준

IMP
8/10
핵심 요약

앤스로픽은 실제 생물학 데이터를 활용해 실무적 문제 해결 능력을 평가하는 신규 벤치마크 'BioMysteryBench'를 공개했습니다. 평가 결과 클로드 모델은 인간이 풀 수 있는 문제에서 인간 전문가와 맞먹는 수준의 성능을 보여주었으나, 매우 어려운 문제에서는 정답률이 불안정한 모습을 보였습니다.

번역된 본문

앤스로픽(The new benchmark claims Claude can match human experts in bioinformatics)은 신규 벤치마크를 통해 클로드(Claude)가 실제 바이오정보학(bioinformatics) 문제를 전문가 수준에서 해결할 수 있음을 입증하고자 합니다. 결과는 유망하지만 중요한 주의 사항이 따릅니다.

AI 모델이 생물학 연구에서 실제로 어느 정도 성능을 발휘하는지 측정하는 것은 어렵습니다. 앤스로픽에 따르면 기존 벤치마크들은 각각의 맹점이 있습니다. MMLU-Pro나 GPQA 같은 지식 테스트는 사실적 지식은 확인하지만 실용적인 연구 기술은 평가하지 못합니다. 실제 데이터셋을 사용하는 BixBench 같은 벤치마크는 개별 과학자의 결론을 바탕으로 모델을 평가하지만, 이러한 결론 자체가 주관적이며 방법론적 선택의 영향을 받습니다. SciGym과 같은 시뮬레이션 실험실 환경은 명확한 정답은 있지만 현실적인 생물학 데이터의 복잡성과 잡음(noise)을 제대로 담아내지 못합니다.

이를 해결하기 위해 앤스로픽은 전문가들이 작성하고 실제 잡음이 포함된 데이터셋을 기반으로 한, 바이오정보학 여러 도메인에 걸친 99개의 질문으로 구성된 'BioMysteryBench'를 개발했습니다. 핵심 설계는 정답이 과학적 해석에서 도출되는 것이 아니라 데이터의 통제 가능하고 객관적으로 검증 가능한 속성이나 독립적으로 검증된 메타데이터에서 도출된다는 것입니다. 모든 질문 작성자는 데이터에 실제로 신호가 존재함을 증명하는 검증 노트북(validation notebook)을 제출해야만 했습니다. 이러한 접근 방식 덕분에 인간이 풀지 못할 수도 있는 질문을 던지는 것이 가능해졌습니다. 일반적인 작업에는 단일 세포 RNA 데이터셋이 어떤 장기에서 나왔는지 식별하거나, 실험 샘플에서 어떤 유전자가 녹아웃(knocked out)되었는지 알아내는 등의 것이 포함됩니다.

클로드는 바이오정보학 도구가 포함된 컨테이너, NCBI 및 Ensembl과 같은 데이터베이스에 대한 접근 권한, 그리고 자체적인 분석 방법을 선택할 수 있는 완전한 자유를 부여받습니다. 최종 답변만 채점되며 그 과정은 평가받지 않습니다.

해결 가능한 문제에서는 뛰어난 성능, 하지만 어려운 작업은 여전히 불안정해

앤스로픽은 작업을 두 그룹으로 나누었습니다. 최대 5명의 전문가 중 최소 1명이 정답을 찾아냈기 때문에 76개는 '인간이 풀 수 있는(human-solvable)' 문제로 간주되었습니다. 나머지 23개 작업은 모든 전문가를 꼼짝 못 하게 만들었습니다. 처음 계획되었던 4개의 질문은 잘못된 구성으로 인해 제거되어야만 했습니다. 남은 23개에 대해 앤스로픽은 이것이 근본적으로 불가능한지 아니면 단지 극도로 어려운 것인지 불분명하다고 인정했습니다. 더 크거나 구성이 다른 전문가 패널이 이를 해결할 수 있었을지도 열린 질문으로 남습니다.

앤스로픽에 따르면 해결 가능한 문제에서 클로드는 이제 인간 전문가의 성능과 일치합니다. 선정된 전문가 중 누구도 풀지 못한 어려운 문제에서는 Claude Mythos Preview 모델이 30%의 성공률을 달성했습니다.

그러나 앤스로픽이 Claude Mythos Preview 모델에 대해 스스로 실행하도록 한 일관성 분석은 조금 더 미묘한 그림을 보여줍니다. 각 작업은 5번씩 시도되었습니다. 해결 가능한 문제에서 클로드는 거의 항상 5번의 시도 모두에서 정답을 맞히거나 단 한 번도 맞히지 못했습니다. 어려운 문제에서는 5번의 시도 중 1~2번 정도만 성공하는 것이 일반적이었습니다. 즉, 모델이 재현 가능한 전략을 따르기보다는 우연히 운이 좋은 해결책을 찾아내는 것에 가깝습니다.

앤스로픽은 클로드를 인간 테스터와 차별화하는 두 가지 전략을 확인했습니다. 모델은 방대한 지식 기반을 바탕으로 정보를 직접 진행 중인 분석과 결합합니다. 불확실할 때 클로드는 여러 방법을 겹겹이 포개어 적용한 뒤, 서로 다른 접근 방식이 수렴하는 답변을 선택합니다.

제넨텍(Genentech)과 로슈(Roche)가 동시에 개발하여 유사한 결과를 보여주는 비슷한 설계의 벤치마크인 CompBioBench에서 독립적인 확인을 얻을 수 있었습니다. BioMysteryBench는 Hugging Face에서 이용할 수 있습니다.

원문 보기
원문 보기 (영어)
Anthropic's new benchmark claims Claude can match human experts in bioinformatics Maximilian Schreiner View the LinkedIn Profile of Maximilian Schreiner Apr 30, 2026 Anthropic With BioMysteryBench, Anthropic wants to show that Claude can solve real bioinformatics problems at an expert level. The results are promising, but come with important caveats. Measuring how well AI models actually perform in biological research is difficult. According to Anthropic, existing benchmarks each have blind spots: knowledge tests like MMLU-Pro or GPQA check factual knowledge but not practical research skills. Benchmarks like BixBench that use real datasets evaluate models against individual scientists' conclusions, which are themselves subjective and shaped by methodological choices. And simulated lab environments like SciGym have clear answers but don't capture the messiness of real biological data. That's why Anthropic developed BioMysteryBench : 99 questions across multiple bioinformatics domains, written by specialists and based on real, noisy datasets. The key design involves answers that aren't derived from scientific interpretations but from controllable, objectively verifiable properties of the data or independently validated metadata. Every question author had to submit a validation notebook proving the signal actually exists in the data. This approach also makes it possible to ask questions that humans might not be able to solve. Typical tasks include identifying which organ a single-cell RNA dataset came from, or figuring out which gene was knocked out in experimental samples. Claude gets a container with bioinformatics tools, access to databases like NCBI and Ensembl, and full freedom to choose its own analysis methods. Only the final answer is scored, not the path it takes to get there. Strong results on solvable problems, but hard tasks remain fragile Anthropic split the tasks into two groups: 76 were considered "human-solvable" because at least one out of up to five experts found the correct answer. Another 23 tasks stumped every expert. Four originally planned questions had to be removed due to flawed formulations. For the remaining 23, Anthropic acknowledges that it's unclear whether they are fundamentally unsolvable or just extremely difficult. Whether a larger or differently composed expert panel could have solved them also remains an open question. On the solvable problems, Claude now matches human expert performance, according to Anthropic. On the hard problems that none of the selected experts could solve, Claude Mythos Preview achieves a 30 percent success rate. However, a consistency analysis that Anthropic had Claude Mythos Preview run on itself paints a more nuanced picture. Each task was attempted five times. On the solvable problems, Claude almost always either gets all five attempts right or none at all. On the hard problems, successes typically come in just one or two out of five attempts. The model stumbles onto a lucky solution path rather than following a reproducible strategy. Anthropic identifies two strategies that set Claude apart from human testers: the model draws on a broad knowledge base and combines information directly with its ongoing analysis. When uncertain, Claude also layers multiple methods on top of each other and picks the answer that different approaches converge on. Independent confirmation comes from CompBioBench , a similarly designed benchmark developed concurrently by Genentech and Roche that shows comparable results. BioMysteryBench is available on Hugging Face . AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now --> AI news without the hype Curated by humans. More than 16% discount. Read without distractions – no Google ads. Access to comments and community discussions. Weekly AI newsletter. 6 times a year: “AI Radar” – deep dives on key AI topics. Up to 25 % off on KI Pro online events. Access to our full ten-year archive. Get the latest AI news from The Decoder. Subscribe to The Decoder -->