뇌졸중·당뇨 임상 AI, '허술한 데이터'로 학습된 실태
구글이 운영하는 데이터 플랫폼인 캐글(Kaggle)에 올라온 근거 없는 질병 데이터셋이 실제 의학 논문과 임상 예측 모델 학습에 무분별하게 사용되고 있는 실태가 적발되었습니다. 영국 퀸즐랜드 공과대학교 연구진은 뇌졸중 및 당뇨병 예측 모델을 분석한 결과, 유명 연예인 사진이나 중복 환자 데이터, 출처 불명의 정보가 섞여 있는 등 데이터의 품질과 윤리적 기준이 심각하게 미달하는 것을 확인했습니다. 이로 인해 관련 논문들이 속속 철회되고 있으며, 온라인 데이터셋을 활용하는 머신러닝 및 의료 AI 연구에서 데이터 검증의 엄밀성이 시급히 요구되고 있습니다.
온라인 이미지 데이터셋을 스크롤하던 호주 퀸즐랜드 공과대학교(QUT)의 통계학자 에이드리언 바넷(Adrian Barnett)은 몇몇 익숙한 얼굴을 발견했습니다. 람보로 분한 실베스터 스탤론, 그리고 레드카펫에 선 스탤론의 모습이었습니다. "이건 정말 터무니없네요." 바넷이 말했습니다. 조지 클루니, 안젤리나 졸리, 다니엘 크레이그의 사진 역시 같은 이미지가 여러 번 등장했습니다. 바넷은 "보시다시피, 이건 그냥 우스꽝스러울 정도로 형편없는 데이터셋입니다"라고 지적했습니다.
'droopy(축 늘어진)'라는 폴더에 수집되어 구글이 소유한 오픈소스 저장소인 캐글(Kaggle)에 호스팅된 이 특이한 데이터셋은, 과학 저널 '사이언티픽 리포츠(Scientific Reports)'에 게재된 논문의 기반이 되었습니다. 이 데이터는 유명인을 찾는 게임용이 아니라, 뇌졸중을 조기에 발견하기 위한 예측 임상 모델의 학습(train) 세트로 사용된 것입니다.
이 논문은 바넷과 그의 박사과정 학생인 알렉산더 깁슨(Alexander Gibson)이 캐글 플랫폼에서 문서화한 훨씬 더 광범위한 문제의 최근 사례 중 하나입니다. 캐글은 사용자가 업로드한 데이터셋을 호스팅하며, 연구자와 머신러닝 실무자들이 이를 활용해 예측 모델을 구축할 수 있도록 제공합니다. 깁슨과 바넷은 표 형태의 환자 데이터가 포함된 뇌졸중 및 당뇨병 관련 캐글 데이터셋 두 가지를 추가로 조사하며, 이 데이터가 과학 문헌을 통해 어떻게 유통되고 일부는 실제 임상에까지 사용되는지 추적했습니다.
이들의 연구 결과는 2월 medRxiv에 프리프린트(preprint)로 게재되었으며, 이미 이 의심스러운 데이터셋을 사용한 여러 편의 논문 철회(retraction)로 이어졌습니다. 이 프리프린트를 위해 수많은 부실 데이터셋을 뒤졌던 깁슨은 '사이언티픽 리포츠'에 실린 해당 논문을 너무나도 쉽게 찾을 수 있었다고 말했습니다. 깁슨은 "구글 스칼라(Google Scholar)에서 'Kaggle'과 'stroke(뇌졸중)'만 검색했는데, 가장 먼저 뜬 결과 중 하나였습니다"라고 설명했습니다.
지난 12월에 발표된 이 논문은 뇌졸중을 앓은 사람들의 이미지를 보여준다고 주장하는 두 가지 데이터셋을 사용해 모델을 학습시켰습니다. 논문에 따르면 이 모델은 실시간으로 뇌졸중을 감지하고 '신속한 임상 개입'을 용이하게 하기 위한 것입니다. 이 데이터셋 중 하나는 현재 캐글에서 삭제된 상태입니다. 그러나 여전히 온라인에 남아있는 'droopy' 데이터셋에서 바넷과 깁슨은 역방향 이미지 검색을 통해 많은 이미지가 실제로는 벨마비(Bell's palsy) 환자의 모습이며, 유아 및 어린아이(그리고 유명인)의 사진이 섞여 있다는 사실을 밝혀냈습니다.
캐글에서 데이터셋 작성자는 명백한 중복에도 불구하고 이 데이터셋에 '서로 다른 환자'의 이미지 1024장이 포함되어 있다고 주장하며 교육 목적이라고 밝혔습니다. 바넷은 "이것은 분명 진지한 연구에 적합하지 않으며, 윤리적·과학적으로 부적절합니다. 기본적인 검증만 거쳤어도 사용될 이유가 없는 데이터입니다"라고 강하게 비판했습니다. 우리가 스프링거 네이처(Springer Nature)에 취재를 요청한 후, 저널 측은 해당 논문에 편집자 주석을 추가하여 기사 내 데이터의 신뢰성에 대한 우려를 독자들에게 경고했으며, 조사 결과에 따라 추가적인 편집 조치가 뒤따를 수 있다고 밝혔습니다. 이 논문의 교신 저자인 이집트 만수라 대학교의 알라 모하메드(Alaa Mohamed)는 기사 게재 시점까지 취재 요청에 응답하지 않았습니다.
캐글은 이전에도 데이터 신뢰성에 대한 감시를 받은 바 있습니다. 지난 12월, 매체 '더 트랜스미터(The Transmitter)'는 스프링거 네이처가 동의나 검증 없이 아동의 얼굴을 사용한 데이터셋으로 모델을 학습시킨 거의 40편의 출판물에 조치를 취했다고 보도했습니다. 연구진에 따르면, 이번 발견은 여러 온라인 데이터 저장소에 걸쳐 수천 편의 논문으로 확장될 수 있는 문제의 한 예일 뿐입니다.
깁슨은 박사 학위를 위한 임상 예측 모델 데이터셋을 찾던 중 처음으로 이 의심스러운 데이터를 발견했습니다. 그는 곧 캐글과 그곳에 호스팅된 수많은 데이터셋을 발견했습니다. 그는 "그때 '이 데이터들이 어디서 왔지?'라는 생각이 들었습니다. 계속 찾아봤지만, 데이터 출처에 대한 어떤 정보도 찾을 수 없었습니다"라고 말했습니다.
이 문제를 설명하기 위해 깁슨과 바넷은 뇌졸중 및 당뇨병 데이터셋 두 가지에 집중했으며, 이를 기반으로 모델을 구축한 124편의 논문을 식별했습니다. 그들은 medRxiv에 보고한 바와 같이, 이 두 데이터셋 모두 임상 예측 모델에서 데이터의 출처를 밝히는 '누가, 언제, 어디서, 왜(who, when, where, why)'에 대한 체크리스트 검사를 통과하지 못했습니다. 이들은 누구나 데이터셋에 대해 기본적인 검증만 수행했다면 이러한 문제를 쉽게 발견할 수 있었을 것이라고 덧붙였습니다.