메뉴
HN
Hacker News 11일 전

뇌졸중·당뇨 임상 AI, '허술한 데이터'로 학습된 실태

IMP
8/10
핵심 요약

구글이 운영하는 데이터 플랫폼인 캐글(Kaggle)에 올라온 근거 없는 질병 데이터셋이 실제 의학 논문과 임상 예측 모델 학습에 무분별하게 사용되고 있는 실태가 적발되었습니다. 영국 퀸즐랜드 공과대학교 연구진은 뇌졸중 및 당뇨병 예측 모델을 분석한 결과, 유명 연예인 사진이나 중복 환자 데이터, 출처 불명의 정보가 섞여 있는 등 데이터의 품질과 윤리적 기준이 심각하게 미달하는 것을 확인했습니다. 이로 인해 관련 논문들이 속속 철회되고 있으며, 온라인 데이터셋을 활용하는 머신러닝 및 의료 AI 연구에서 데이터 검증의 엄밀성이 시급히 요구되고 있습니다.

번역된 본문

온라인 이미지 데이터셋을 스크롤하던 호주 퀸즐랜드 공과대학교(QUT)의 통계학자 에이드리언 바넷(Adrian Barnett)은 몇몇 익숙한 얼굴을 발견했습니다. 람보로 분한 실베스터 스탤론, 그리고 레드카펫에 선 스탤론의 모습이었습니다. "이건 정말 터무니없네요." 바넷이 말했습니다. 조지 클루니, 안젤리나 졸리, 다니엘 크레이그의 사진 역시 같은 이미지가 여러 번 등장했습니다. 바넷은 "보시다시피, 이건 그냥 우스꽝스러울 정도로 형편없는 데이터셋입니다"라고 지적했습니다.

'droopy(축 늘어진)'라는 폴더에 수집되어 구글이 소유한 오픈소스 저장소인 캐글(Kaggle)에 호스팅된 이 특이한 데이터셋은, 과학 저널 '사이언티픽 리포츠(Scientific Reports)'에 게재된 논문의 기반이 되었습니다. 이 데이터는 유명인을 찾는 게임용이 아니라, 뇌졸중을 조기에 발견하기 위한 예측 임상 모델의 학습(train) 세트로 사용된 것입니다.

이 논문은 바넷과 그의 박사과정 학생인 알렉산더 깁슨(Alexander Gibson)이 캐글 플랫폼에서 문서화한 훨씬 더 광범위한 문제의 최근 사례 중 하나입니다. 캐글은 사용자가 업로드한 데이터셋을 호스팅하며, 연구자와 머신러닝 실무자들이 이를 활용해 예측 모델을 구축할 수 있도록 제공합니다. 깁슨과 바넷은 표 형태의 환자 데이터가 포함된 뇌졸중 및 당뇨병 관련 캐글 데이터셋 두 가지를 추가로 조사하며, 이 데이터가 과학 문헌을 통해 어떻게 유통되고 일부는 실제 임상에까지 사용되는지 추적했습니다.

이들의 연구 결과는 2월 medRxiv에 프리프린트(preprint)로 게재되었으며, 이미 이 의심스러운 데이터셋을 사용한 여러 편의 논문 철회(retraction)로 이어졌습니다. 이 프리프린트를 위해 수많은 부실 데이터셋을 뒤졌던 깁슨은 '사이언티픽 리포츠'에 실린 해당 논문을 너무나도 쉽게 찾을 수 있었다고 말했습니다. 깁슨은 "구글 스칼라(Google Scholar)에서 'Kaggle'과 'stroke(뇌졸중)'만 검색했는데, 가장 먼저 뜬 결과 중 하나였습니다"라고 설명했습니다.

지난 12월에 발표된 이 논문은 뇌졸중을 앓은 사람들의 이미지를 보여준다고 주장하는 두 가지 데이터셋을 사용해 모델을 학습시켰습니다. 논문에 따르면 이 모델은 실시간으로 뇌졸중을 감지하고 '신속한 임상 개입'을 용이하게 하기 위한 것입니다. 이 데이터셋 중 하나는 현재 캐글에서 삭제된 상태입니다. 그러나 여전히 온라인에 남아있는 'droopy' 데이터셋에서 바넷과 깁슨은 역방향 이미지 검색을 통해 많은 이미지가 실제로는 벨마비(Bell's palsy) 환자의 모습이며, 유아 및 어린아이(그리고 유명인)의 사진이 섞여 있다는 사실을 밝혀냈습니다.

캐글에서 데이터셋 작성자는 명백한 중복에도 불구하고 이 데이터셋에 '서로 다른 환자'의 이미지 1024장이 포함되어 있다고 주장하며 교육 목적이라고 밝혔습니다. 바넷은 "이것은 분명 진지한 연구에 적합하지 않으며, 윤리적·과학적으로 부적절합니다. 기본적인 검증만 거쳤어도 사용될 이유가 없는 데이터입니다"라고 강하게 비판했습니다. 우리가 스프링거 네이처(Springer Nature)에 취재를 요청한 후, 저널 측은 해당 논문에 편집자 주석을 추가하여 기사 내 데이터의 신뢰성에 대한 우려를 독자들에게 경고했으며, 조사 결과에 따라 추가적인 편집 조치가 뒤따를 수 있다고 밝혔습니다. 이 논문의 교신 저자인 이집트 만수라 대학교의 알라 모하메드(Alaa Mohamed)는 기사 게재 시점까지 취재 요청에 응답하지 않았습니다.

캐글은 이전에도 데이터 신뢰성에 대한 감시를 받은 바 있습니다. 지난 12월, 매체 '더 트랜스미터(The Transmitter)'는 스프링거 네이처가 동의나 검증 없이 아동의 얼굴을 사용한 데이터셋으로 모델을 학습시킨 거의 40편의 출판물에 조치를 취했다고 보도했습니다. 연구진에 따르면, 이번 발견은 여러 온라인 데이터 저장소에 걸쳐 수천 편의 논문으로 확장될 수 있는 문제의 한 예일 뿐입니다.

깁슨은 박사 학위를 위한 임상 예측 모델 데이터셋을 찾던 중 처음으로 이 의심스러운 데이터를 발견했습니다. 그는 곧 캐글과 그곳에 호스팅된 수많은 데이터셋을 발견했습니다. 그는 "그때 '이 데이터들이 어디서 왔지?'라는 생각이 들었습니다. 계속 찾아봤지만, 데이터 출처에 대한 어떤 정보도 찾을 수 없었습니다"라고 말했습니다.

이 문제를 설명하기 위해 깁슨과 바넷은 뇌졸중 및 당뇨병 데이터셋 두 가지에 집중했으며, 이를 기반으로 모델을 구축한 124편의 논문을 식별했습니다. 그들은 medRxiv에 보고한 바와 같이, 이 두 데이터셋 모두 임상 예측 모델에서 데이터의 출처를 밝히는 '누가, 언제, 어디서, 왜(who, when, where, why)'에 대한 체크리스트 검사를 통과하지 못했습니다. 이들은 누구나 데이터셋에 대해 기본적인 검증만 수행했다면 이러한 문제를 쉽게 발견할 수 있었을 것이라고 덧붙였습니다.

원문 보기
원문 보기 (영어)
Scrolling through an online image dataset, Adrian Barnett, a statistician at the Queensland University of Technology in Australia, pointed out a few familiar faces. Sylvester Stallone as Rambo, and then again on the red carpet. “This is just ridiculous,” Barnett said. George Clooney, Angelina Jolie and Daniel Craig all appear more than once, often with the same image. “You can see,” Barnett said, “this is just a comically bad dataset.” This particular dataset , collected in a folder titled “droopy” and hosted on an open-source repository called Kaggle, underpins a paper published in Scientific Reports – not as a find-the-celebrity game, but as a training set for a predictive clinical model for early detection of strokes. The paper is the most recent example of a much wider problem that Barnett and his Ph.D. student Alexander Gibson have documented with Kaggle, which is owned by Google and hosts datasets uploaded by users that researchers and machine learning practitioners can use to build predictive models. By examining two other Kaggle datasets on stroke and diabetes, both of which included tabular patient data, Gibson and Barnett traced how the data move through the scientific literature and in some cases, into clinical use. Their work, described in a preprint posted to medRxiv in February, already has led to several retractions of the papers using these dubious datasets. After trawling through so many questionable datasets for the work leading to the preprint, Gibson said the Scientific Reports paper was easy to find. “I just searched ‘Kaggle’ and ‘stroke’ in Google Scholar,” Gibson said. “This was just one of the first ones that came up.” The paper, published in December, uses two datasets purporting to show images of people who have had a stroke to train a model to detect stroke in real time and facilitate “rapid clinical intervention,” per the paper. One of the datasets has since been removed from Kaggle. In the “droopy” dataset, which remains online, Barnett and Gibson found through reverse image search that many images were depicting Bell’s palsy, alongside images of children and infants (and celebrities). On Kaggle, the creator claims the dataset contains 1024 images of “different patients,” despite the obvious duplications, and states it is for educational purposes. “This is clearly not suitable for serious research, it's ethically and scientifically inappropriate,” Barnett said. “There's no reason that this should have been used given basic checks.” After we reached out to Springer Nature, the journal added an editor’s note on the paper warning readers about concerns regarding the reliability of data in the article, and that further editorial action might follow their investigation. The corresponding author of the article, Alaa Mohamed, of Mansoura University in Egypt, did not respond to our request in time for publication. Kaggle has faced scrutiny about data reliability before. In December, The Transmitter reported Springer Nature had taken action on nearly 40 publications that trained models with datasets that used children’s faces without consent or verification. For the researchers, this latest discovery is just one example of a problem that they say possibly extends to thousands of papers across several online data repositories. Gibson first ran into the questionable data while searching for clinical prediction model datasets for his Ph.D. He quickly found Kaggle and the numerous datasets hosted there. “Then I thought, ‘Where did they come from?’” he said. “And kept looking, and kept looking and there was no information at all.” To describe the issue, Gibson and Barnett focused on two datasets, one on stroke and one on diabetes, and identified 124 published papers that built models based on these datasets. Both of them failed to pass a checklist covering the who, when, where and why of data provenance in clinical predictive models, they reported on medRxiv. Anybody doing basic checks on the datasets would have seen instantly that they do not look like real data, Gibson said. Their findings, covered in a Nature news story in April, detailed how the datasets contained thousands of duplicated patient observations, and had very few missing values, which is unlikely in a dataset containing real-world patient data. When Gibson and Barnett raised these concerns on PubPeer , one of the authors of a paper drawing on the Kaggle data responded by citing 25 other articles that had used the same dataset. “Its continued presence in current literature indicates that it remains a commonly accepted resource for experimental evaluation in this research area,” Naeem Ramzan, the corresponding author, wrote. That paper, published in Scientific Reports , was retracted in April because the authors couldn’t provide information about the provenance or accuracy of the data, according to the notice. “I'm not really very sympathetic to anybody who used this data thinking it was real,” Gibson said, “because they didn't do the basics.” The majority of the studies flagged in the preprint made practical recommendations for using the models on patients, and most of them contained no ethics statement. At least two of the models have a publicly available website , and one is linked to a medical device patent registered to the California Institute of Technology and the University of Southern California. One article states the model it describes would be used at a hospital in Indonesia, another claimed its model had successfully diagnosed a stroke and in yet another, the authors said they were deploying their model in a local heart clinic . Several of the papers attempted to identify where the stroke data had come from; two referenced clinics in Bangladesh, another said “prestigious healthcare organizations” such as AIMS and WHO, another said clinical volunteers, and another McKinsey & Company electronic health records. Most of them are “clearly lying,” Barnett said, “because they said the dataset came from different sources.” One paper acknowledged the lack of provenance information, but still made clinical recommendations. Ben Van Calster, a biostatistician at KU Leuven who helped develop the guidelines for data provenance, said the findings weren’t surprising. “The paper explains the problem very clearly and in depth,” he told Retraction Watch. Van Calster’s work has documented similar problems in prediction models for COVID-19, finding the majority carried a high risk of bias , with image-based models in particular having the worst issues with data quality. Eleven of the papers using the questionable datasets are published in Springer Nature journals. Three of them, in Scientific Reports, were retracted because the authors couldn’t provide information about the provenance or accuracy of the data. Another three in the journal are under investigation. Tim Kersjes, head of research integrity at the publisher, said its investigations are ongoing. “We will take further editorial action as appropriate on a case-by-case basis,” he said in a statement, adding that authors should have sufficient time to respond to the concerns. A spokesperson for Elsevier, whose journals have published nine of the flagged papers, said it would investigate the matter. MDPI, whose journals have published 11 of the papers, said it is aware of the issue, and that its investigation into the papers is ongoing. Barnett and Gibson said all the online tools based on these datasets should be removed until their provenance can be confirmed, and all 124 articles should have expressions of concern. “Of course, repositories cannot really control whether everybody uses this data in the way that they should be used,” Van Calster said. “So I think the repositories should improve their documentation.” A spokesperson for Kaggle said the platform relies on community self-reporting for metadata and provenance. The use of synthetic data on Kaggle is “entirely legitimate,” they said, but “these datasets are inte