메뉴
BL
404 Media 26일 전

과학저널 '네이처', 교육 분야 ChatGPT 효과 논문 철회

IMP
8/10
핵심 요약

최근 국제 학술지 '네이처(Nature)'가 ChatGPT가 학생의 학업 성취도와 고차원적 사고에 긍정적인 영향을 미친다는 연구 결과를 담은 논문을 메타분석의 통계적 오류 등을 이유로 전면 철회했습니다. 해당 논문은 발표 직후 40만 회 가까이 조회되며 교육 분야 AI 도입의 강력한 과학적 근거로 확산되었으나, 연구에 인용된 기존 논문들의 질이 낮고 분석 방법에 치명적인 결함이 있었다는 후속 연구에 의해 부정확한 것으로 드러났습니다.

번역된 본문

국제 학술지 네이처(Nature)가 AI가 학생의 학습에 긍정적인 영향을 미친다고 주장했던 논문을 철회했습니다. 원제는 '학생의 학업 성취도, 학습 인식 및 고차원적 사고에 대한 ChatGPT의 효과: 메타분석을 통한 통찰(The effect of ChatGPT on students’ learning performance, learning perception, and higher-order thinking: insights from a meta-analysis)'으로, 중국 항저우 사범대학교의 Jin Wang과 Wenxiang Fan이 작성하여 작년 5월에 처음 발표되었습니다. 이 논문은 2022년 11월부터 2025년 2월까지 발표된 교육 분야 ChatGPT의 효과를 다룬 51개의 연구 데이터를 종합한 메타분석(Meta-analysis) 연구입니다. 이 연구는 ChatGPT가 학생의 학업 성취도, 학습 인식 및 고차원적 사고에 크거나 중간 정도의 긍정적인 영향을 미친다고 주장했습니다.

네이처는 철회 안내문을 통해 "메타분석의 데이터 불일치 문제로 인해 이 논문을 철회하기로 결정했다"고 밝혔습니다. 이어 "이러한 문제들은 결론과 분석의 타당성에 대한 신뢰를 훼손한다. 저자들은 이번 철회와 관련된 서신 통보에 응답하지 않았다"고 덧붙였습니다. 해당 연구자들 역시 언론의 코멘트 요청에 즉각적인 답변을 하지 않았습니다.

에든버러 대학교의 디지털 교육 시니어 강사인 Ben Williamson은 이메일 인터뷰에서 "이 논문이 2025년 5월 6일에 게재된 지 하루나 이틀 만에 처음 눈에 띄었다"고 전했습니다. 그는 "저자들이 '학업 성취도'라고 부르는 것을 ChatGPT가 향상시킨다는 최초의 확실한 증거를 제공하는 것처럼 보여 링크드인(LinkedIn)을 비롯한 소셜 미디어에서 빠르게 큰 관심을 받았다"고 설명했습니다. 이 논문은 한 달 만에 온라인에서 거의 40만 회 열람되었고, X(옛 트위터)와 블루스카이(Bluesky)에서 수백 번 공유되며 알트메트릭(Altmetric) 점수 365를 기록했습니다. 또한 영향력 있는 인물들이 교육 분야 AI 도입을 지지하는 확실한 증거로 소셜 미디어에서 적극 공유하면서 그 인기가 더욱 컸습니다.

네이처의 철회 안내문에는 결정에 대한 더 자세한 이유가 명시되지 않았지만, '유럽 교육 정책 및 실무 저널(European Journal of Education Policy and Practice)'에 2025년에 발표된 한 연구는 Wang과 Fan이 사용한 연구 방법론에 근본적인 결함이 많음을 보여주었고, 논문이 철회되기도 전에 그 문제점들을 지적했습니다. Ilkka Tuomi가 작성하고 'AI 및 교육 분야의 증거란 무엇인가: 과학을 위한 정책 3.0을 향하여(What counts as evidence in AI & ED: Towards Science-for-Policy 3.0)'라는 제목의 이 논문은 다음과 같이 지적했습니다. "AI 교육(AIED)에 대한 기존의 실증적 증거는 일부 긍정적인 효과를 보여주지만, 면밀히 검토해보면 방법론적, 개념적 문제들이 드러나며, 결론적으로 기존의 증거를 정책이나 실무를 지침하는 데 사용해서는 안 된다."

Tuomi에 따르면 핵심적인 문제 중 하나는 이러한 메타분석 연구들이 동료 평가를 거친 논문이라면 가릴 것 없이 모두 데이터로 활용했는데, 개별 논문들을 자세히 살펴보면 질적으로 편차가 심하거나 실제로 AI가 학습 결과를 향상시킨다는 데이터가 없는 경우도 있었다는 점입니다. Tuomi는 학생 학습을 향상시키는 ChatGPT에 대한 또 다른 연구를 언급하며 다음과 같이 비판했습니다. "겉보기에는 방법론적 질과 엄격함을 갖춘 것처럼 보이지만, 분석된 연구들의 이질성으로 인해 Deng 등의 메타분석에서 도출된 수치적 결과는 사실상 무의미합니다. 매우 유사한 문제들이 ChatGPT가 학습에 긍정적인 영향을 미친다는 최종적인 증거로 해석되었던 또 다른 바이럴 논문의 바탕에도 자리 잡고 있습니다. Wang과 Fan(2025)의 이 연구는 검색 패턴의 원래 맞춤법 오류까지 그대로 복사할 정도로 Deng 등의 연구와 동일한 방법론을 사용했습니다. 원본 연구들이 게재된 저널들을 빠르게 훑어보기만 해도 저질 및 악의적인 약탈적(Predatory) 저널들이 포함되어 있다는 사실을 알 수 있습니다."

Williamson은 "ChatGPT가 학습에 미치는 영향에 대한 이 메타분석은 ChatGPT가 출시된 지 불과 2년 반 만에 등장했다"고 지적했습니다. 그는 이어서 "그러니 우리는 그 기간 동안 ChatGPT가 학업 성취도에 미치는 영향에 대한 수십 건의 고품질 연구가 진행되고, 논문으로 작성되어 동료 평가를 위해 제출된 다음 출판되었으며, 메타분석 저자들이 견고한 방법을 사용해 이를 공들여 종합했다는 것을 믿어야 합니다. 하지만 실제로는 이 메타분석이 질적으로 떨어지는 자료들을 단순히 취합한 것에 불과해 보입니다."라고 설명했습니다.

원문 보기
원문 보기 (영어)
Nature has retracted a paper that claimed AI had a positive impact on student learning. The original paper, titled “ The effect of ChatGPT on students’ learning performance, learning perception, and higher-order thinking: insights from a meta-analysis ,” was originally published in May of last year by Jin Wang and Wenxiang Fan of the Hangzhou Normal University in China. It is a meta-analysis, meaning it combines data from 51 research studies published between November 2022 and February 2025 on the effectiveness of ChatGPT in education. The paper claimed it found that ChatGPT had a large or moderately positive impact on “students’ learning performance, learning perception, and higher-order thinking.” “The Editor has decided to retract this paper owing to concerns regarding discrepancies in the meta-analysis,” Nature said in its retraction note . “These issues ultimately undermine the confidence the Editor can place in the validity of the analysis and resulting conclusions. The authors have not responded to correspondence regarding this retraction.” The researchers did not immediately respond to a request for comment. “I first noticed the paper published just a day or two after it came out on 6 May 2025,” Ben Williamson, a senior lecturer in digital education at the University of Edinburgh, told me in an email. “It rapidly picked up a lot of attention on social media, especially on LinkedIn, as it appeared to offer some of the first hard evidence that ChatGPT improves what the authors called ‘learning performance.’ Within a month it had been accessed online almost 400,000 times and had an Altmetric score of 365 after being shared hundreds of times on X and Bluesky. It was very much helped by some very influential individuals sharing it on social media as good evidence to support promoting AI in education.” The retraction note did not provide more details on Nature's decision, but a 2025 study published in European Journal of Education Policy and Practice shows that the method Wang and Fan used is often flawed, and highlighted the issues in their paper before it was retracted. “Existing empirical evidence on AIED [AI in educations] suggests some positive effects, but a closer look reveals methodological and conceptual problems and leads to the conclusion that existing evidence should not be used to guide policy or practice,” the paper, written Ilkka Tuomi and titled “ What counts as evidence in AI & ED: Towards Science-for-Policy 3.0 ,” said. One problem according to Tuomi is that these meta-analysis studies use any paper that was peer-reviewed, but that a closer look at each individual paper reveals that they vary in quality or that the data doesn’t show AI improves learning outcomes. “Despite its apparent methodological quality and apparent rigour, the heterogeneity of the analysed studies makes the quantitative results of the Deng et al. meta-analysis meaningless,” Tuomi said, referring to another study about ChatGPT enhancing student learning . “Very similar problems underpin another viral article that has been interpreted to provide final proof that ChatGPT has positive impacts on learning. This study, by Wang and Fan (2025), uses the same methodology as the Deng et al. study, to the extent that it copies their search pattern with the original spelling mistakes. Already a quick review of the journals where the original studies have been published, show that low-quality and potentially predatory journals are included.” “This meta analysis on ChatGPT effects on learning appeared only two and a half years after ChatGPT was launched,” Williamson said. “So what we are supposed to believe is that in the intervening period, dozens of high quality studies of the effect of ChatGPT on learning performance took place, were written up, submitted for peer review, and published, which the meta analysis authors then painstakingly synthesized using robust methods. What appeared actually to be the case is that the meta analysis aggregated a whole bunch of very low quality research published in disreputable journals. Ultimately, the meta analysis recycled junk science into headline-grabbing claims about the benefits of ChatGPT for learners. And those claims were simply unfounded due to methodological problems with the conduct of the study, as the retraction now appears to indicate. "The retraction of this study should serve as a crucial reminder to the education community,” Jake Baskin, executive director of the Computer Science Teachers Association , told me in an email. “We need to teach students how this technology actually works, not just how to use it, and rigorously evaluate if and how generative AI genuinely improves teaching and learning." Our reporting has repeatedly shown that large language models are prone to errors that can make education frustrating to both students and teachers. Multiple teachers have told us that ChatGPT has completely upended their ability to educate students and grade their work which is increasingly AI-generated. My investigation into Alpha School , the leading “AI-powered” school, used AI generated lesson plans that included errors and flawed questions. Despite these problems, AI companies and lawmakers continue to push AI products into schools . “ChatGPT and other generative AI applications have been incredibly disruptive in education for several years,” Williamson said. “What educators, parents and policy officials really needed was high quality data and evidence to help guide them. What they have had to deal with instead is some substandard research.” About the author Emanuel Maiberg is interested in little known communities and processes that shape technology, troublemakers, and petty beefs. Email him at emanuel@404media.co More from Emanuel Maiberg
관련 소식