메뉴
BL
The Decoder 33일 전

AI 텍스트가 인터넷을 획일화, 기묘하게 긍정적으로 변화시켜

IMP
8/10
핵심 요약

임페리얼 칼리지 런던, 스탠퍼드 대학교 등의 공동 연구에 따르면, 2025년 중반 기준 전체 신규 웹사이트의 약 35%가 AI로 생성된 것으로 나타났습니다. 연구진은 AI가 인터넷 담화의 다양성을 줄이는 '의미론적 수축'과 인위적으로 긍정적인 어조를 조장하는 '긍정성 변화'를 유발하고 있다고 분석했습니다. 다만, 개성 상실이나 외부 링크 감소, 팩트 오류 증가 등에 대한 가설은 통계적으로 입증되지 않았습니다.

번역된 본문

연구진, AI 텍스트가 인터넷을 더욱 획일적이고 기묘할 정도로 밝게 만들고 있다고 지적

막시밀리안 슈바이너(Maximilian Schreiner) 2026년 4월 28일

인터넷 아카이브(Internet Archive)의 웹사이트에 대한 대규모 분석에 따르면, AI 텍스트가 이미 웹에 얼마나 깊숙이 스며들어 있는지 확인할 수 있습니다. 하지만 연구진에 따르면, 실제 영향은 대중이 일반적으로 예상하는 것과는 상당히 다릅니다.

2025년 중반을 기준으로 새로 게시된 모든 웹사이트의 약 35%가 전체 또는 부분적으로 AI가 생성한 것입니다. 이것이 임페리얼 칼리지 런던, 인터넷 아카이브, 스탠퍼드 대학교 연구진이 발표한 연구의 핵심 결과입니다. 2022년 말 챗GPT가 출시되기 전에는 이 비율이 사실상 0%에 가까웠습니다.

연구팀은 인터넷 아카이브의 웹 백업 서비스인 웨이백 머신(Wayback Machine)에서 2022년 8월부터 2025년 5월까지 33개월 동안의 영어권 웹사이트 대표 샘플을 추출했습니다. AI 텍스트를 식별하기 위해 5가지 차원의 견고성 테스트에서 최고 점수를 기록한 Pangram v3 탐지기를 사용했습니다.

연구진은 웹에 미치는 AI의 영향력에 대한 6가지 일반적인 가설을 검증했습니다. 그중 통계적으로 입증된 것은 단 두 가지뿐이었는데, 바로 '의미론적 수축(Semantic contraction)'과 '긍정성 변화(Positivity shift)'입니다.

'의미론적 수축'은 온라인상에서 표현되는 아이디어의 범위가 좁아지는 현상을 말합니다. 이 연구에 따르면 AI가 생성한 텍스트는 사람이 직접 작성한 콘텐츠보다 서로 간의 의미론적 유사성이 33% 더 높은 것으로 나타났습니다. 연구진은 이를 언어 모델이 학습 데이터의 평균치로 끌리는 경향이 있으며, 이는 온라인 담론의 '오버튼 윈도우(사회적으로 용인되는 의견의 범위)'를 축소할 수 있다는 징후로 해석했습니다.

'긍정성 변화'는 점점 더 인위적인 밝고 긍정적인 어조로 나타납니다. AI 텍스트는 순수 인간 작성 콘텐츠보다 긍정적인 감정 점수가 107%나 더 높았습니다. 연구진은 이러한 결과를 언어 모델이 보이는 잘 알려진 아첨 및 과도한 낙관주의 성향 때문인 것으로 보았습니다. 그들은 살균되고 끊임없이 명랑한 산문이 지배하는 담론은 인간의 반발심이나 이견을 주변부로 밀어낼 수 있다고 주장했습니다.

공동 저자인 스탠퍼드 대학교의 AI 연구원 요나스 돌레잘(Jonas Dolezal)은 AI 모델에 더 많은 마찰력(friction)과 날카로운 목소리가 필요하다고 말했습니다. 그는 404 미디어(404 Media)와의 인터뷰에서 "모델이 완벽하게 순응하고 유순해지도록 강요하는 대신, 모델이 더 뚜렷한 개성이나 '마찰력'을 갖도록 허용하는 것이 인간의 목소리를 대체하는 것이 아니라 창조적인 파트너로서 역할하게 만들 수 있다"고 밝혔습니다.

이 연구는 인과관계가 아닌 상관관계를 측정한 것입니다.

온라인에서 팩트 오류가 증가했다는 증거는 없다

나머지 네 가지 가설은 통계적으로 뒷받침되지 않았습니다. 개인의 독특한 글쓰기 스타일이 사라지거나, 외부 링크가 줄어들거나, 정보 밀도가 감소하는 현상은 관찰되지 않았습니다. 또한 이 연구에서는 실질적인 사실관계 오류가 증가했다는 증거도 찾지 못했습니다. 다만 이 마지막 결과는 다른 결과들보다 방법론적 기반이 훨씬 미흡합니다.

이른바 '진실 부식(Truth Decay)' 가설을 테스트하기 위해 연구진은 GPT-4o-mini를 사용해 웹사이트에서 페이지당 최대 5개씩 검증 가능한 주장을 자동으로 추출했습니다. 그런 다음 50명의 인간 평가자가 외부 소스와 대조하여 이 주장들을 '지지됨', '반박됨', '충분한 증거 없음' 또는 '상반된 증거'로 평가했습니다. 측정 기준은 명확하게 반박된 진술의 비율이었습니다.

연구진은 AI 콘텐츠 비율과 통계적으로 유의미한 상관관계를 발견하지 못했습니다. 하지만 이 결과는 상당히 좁은 기반에 근거하고 있습니다. 각 평가자는 5개의 기사에서 나온 주장을 확인했으며, 이는 대략 250개의 웹사이트로 구성된 하위 샘플을 의미합니다. 전체 연구의 기반이 된 33개월에 걸친 월별 약 10,000개의 URL과 비교하면 이는 극히 일부에 불과합니다.

또한 이 방법은 '명확하게 반박할 수 있는 개별 주장'이라는 매우 좁은 형태의 '진실 부식'만을 포착합니다. AI 텍스트에서 흔히 발생할 수 있는 모호하거나 암시적인, 혹은 단순히 검증할 수 없는 주장과 같은 미묘한 형태의 허위 정보는 이 테스트의 그물망을 그대로 통과하게 됩니다. 그리고 AI 모델이 어떤 진술이 '검증 가능한' 것으로 간주하고 평가자에게 전달할지 사전에 결정하기 때문에, 이 테스트는 필연적으로 보수적인 결과로 편향될 수밖에 없습니다.

돌레잘은 404 미디어에 "가장 놀라운 결과는 우리의 '진실 부식' 가설이 확인되지 않았다는 것"이라며 "우리가 구체적으로 찾고 있던 것은 검증 가능한 거짓 진술의 증가였다는 점을 주목할 필요가 있다"고 덧붙였습니다.

원문 보기
원문 보기 (영어)
Researchers find AI text is making the internet more uniform and weirdly cheerful Maximilian Schreiner View the LinkedIn Profile of Maximilian Schreiner Apr 28, 2026 Midjourney prompted by THE DECODER A large-scale analysis of websites from the Internet Archive shows just how much AI text already saturates the web. According to the researchers, though, the actual effects look quite different from what the public assumes. About 35 percent of all newly published websites were fully or partially AI-generated by mid-2025. That's the headline finding of a study by researchers at Imperial College London, the Internet Archive, and Stanford University. Before ChatGPT launched in late 2022, that share was essentially zero. The team pulled a representative sample of English-language websites from the Internet Archive's Wayback Machine, covering 33 monthly intervals from August 2022 to May 2025. To spot AI text, they used the Pangram v3 detector, which came out on top in their own robustness tests across five dimensions. The researchers put six common hypotheses about AI's impact on the web to the test. Only two held up statistically: "semantic contraction" and the "positivity shift." Semantic contraction refers to a narrowing of the range of ideas online. The study found that AI-generated texts were 33 percent more semantically similar to each other than human-written content. The researchers take this as a sign that language models gravitate toward the mean of their training data, potentially shrinking the "Overton window" of online discourse. The positivity shift shows up as an increasingly artificial upbeat tone. AI texts scored 107 percent higher on positive sentiment than fully human-written content. The researchers chalk this up to the well-known tendency of language models toward sycophancy and overoptimism. A discourse dominated by sanitized, relentlessly cheerful prose could push human dissent to the margins, they argue. Co-author Jonas Dolezal, an AI researcher at Stanford, wants AI models to have more friction and a sharper voice. "Rather than forcing models to be perfectly compliant and agreeable, allowing them to have a more distinct personality or 'friction' might help them act as a creative partner rather than a replacement for human voice," he told 404 Media. The study measures correlations, not causation. No evidence of more factual errors online Four other hypotheses didn't hold up: there was no disappearance of individual writing styles, no decline in external links, and no drop in information density. The study also couldn't show an increase in factual errors, though that finding rests on much shakier methodological ground than the others. To test the so-called truth decay hypothesis, the researchers had GPT-4o-mini automatically pull verifiable claims from the websites, up to five per page. Fifty human annotators then checked those claims against outside sources, rating them as supported, refuted, not enough evidence, or conflicting evidence. The metric was the share of clearly refuted statements. The researchers found no statistically significant correlation with the share of AI content. But this result rests on a fairly narrow base: each annotator checked claims from five articles, which works out to a subsample of roughly 250 websites. Compared to the roughly 10,000 URLs per month across 33 months underlying the full study, that's a tiny slice. The method also captures only a narrow kind of truth decay: clearly refutable individual claims. Subtler forms, such as vague, suggestive, or simply unverifiable assertions, which are likely common in AI text, slip right through. And because an AI model decides upfront which statements count as "verifiable" and get sent to annotators, the test skews conservative. "The most surprising result was that our Truth Decay hypothesis wasn't confirmed," Dolezal told 404 Media . "It's worth noting that we were specifically looking for an increase in verifiably untrue statements, which we didn't find. But it could still be the case that AI is quietly increasing the volume of unverifiable claims, ones that can't be checked against existing fact-checking tools and infrastructure." The researchers conclude that the real threat isn't outright falsehoods but a creeping shift in how people relate to online information. As AI text becomes ubiquitous and nearly indistinguishable from human writing, users may start writing off the credibility of online information across the board. The study calls this "reality apathy." Public perception doesn't match the data The researchers also surveyed 853 US adults in a representative poll. Most respondents believed in all of the negative hypotheses, including the four that didn't hold up empirically. For example, 83 percent agreed that individual writing styles are vanishing in favor of a generic AI voice. The data didn't back that up either. People who rarely use AI were more likely to believe in negative effects than regular users (88.3 versus 76.2 percent), according to the study. Among AI skeptics, the gap was even wider (91.3 versus 71.1 percent). The researchers warn that the high share of AI content turns the theoretical risk of "model collapse," where AI models degrade by training on their own outputs, into a practical problem. Instead of relying on after-the-fact detection, they recommend cryptographic provenance standards like C2PA, plus a rethink of search and recommendation algorithms to reward semantic diversity. Co-author Maty Bohacek of Stanford says the team is already working with the Internet Archive to turn the analysis into an ongoing monitoring tool that tracks the share of AI content on the web over time. "We're now working with the Internet Archive to turn this into a continuous tool that keeps providing this signal going forward, rather than a single fixed snapshot bounded by the static nature of a paper," Bohacek told 404 Media . The study has limits the researchers acknowledge themselves. Only English-language texts were analyzed; other languages and formats like images or video were left out. The entire analysis hinges on the reliability of the Pangram v3 detector, and its accuracy could change as language models keep evolving. The data also comes only from the Internet Archive, which doesn't represent the whole web. AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now --> AI news without the hype Curated by humans. More than 16% discount. Read without distractions – no Google ads. Access to comments and community discussions. Weekly AI newsletter. 6 times a year: “AI Radar” – deep dives on key AI topics. Up to 25 % off on KI Pro online events. Access to our full ten-year archive. Get the latest AI news from The Decoder. Subscribe to The Decoder -->