AI 텍스트가 인터넷을 획일화, 기묘하게 긍정적으로 변화시켜
임페리얼 칼리지 런던, 스탠퍼드 대학교 등의 공동 연구에 따르면, 2025년 중반 기준 전체 신규 웹사이트의 약 35%가 AI로 생성된 것으로 나타났습니다. 연구진은 AI가 인터넷 담화의 다양성을 줄이는 '의미론적 수축'과 인위적으로 긍정적인 어조를 조장하는 '긍정성 변화'를 유발하고 있다고 분석했습니다. 다만, 개성 상실이나 외부 링크 감소, 팩트 오류 증가 등에 대한 가설은 통계적으로 입증되지 않았습니다.
연구진, AI 텍스트가 인터넷을 더욱 획일적이고 기묘할 정도로 밝게 만들고 있다고 지적
막시밀리안 슈바이너(Maximilian Schreiner) 2026년 4월 28일
인터넷 아카이브(Internet Archive)의 웹사이트에 대한 대규모 분석에 따르면, AI 텍스트가 이미 웹에 얼마나 깊숙이 스며들어 있는지 확인할 수 있습니다. 하지만 연구진에 따르면, 실제 영향은 대중이 일반적으로 예상하는 것과는 상당히 다릅니다.
2025년 중반을 기준으로 새로 게시된 모든 웹사이트의 약 35%가 전체 또는 부분적으로 AI가 생성한 것입니다. 이것이 임페리얼 칼리지 런던, 인터넷 아카이브, 스탠퍼드 대학교 연구진이 발표한 연구의 핵심 결과입니다. 2022년 말 챗GPT가 출시되기 전에는 이 비율이 사실상 0%에 가까웠습니다.
연구팀은 인터넷 아카이브의 웹 백업 서비스인 웨이백 머신(Wayback Machine)에서 2022년 8월부터 2025년 5월까지 33개월 동안의 영어권 웹사이트 대표 샘플을 추출했습니다. AI 텍스트를 식별하기 위해 5가지 차원의 견고성 테스트에서 최고 점수를 기록한 Pangram v3 탐지기를 사용했습니다.
연구진은 웹에 미치는 AI의 영향력에 대한 6가지 일반적인 가설을 검증했습니다. 그중 통계적으로 입증된 것은 단 두 가지뿐이었는데, 바로 '의미론적 수축(Semantic contraction)'과 '긍정성 변화(Positivity shift)'입니다.
'의미론적 수축'은 온라인상에서 표현되는 아이디어의 범위가 좁아지는 현상을 말합니다. 이 연구에 따르면 AI가 생성한 텍스트는 사람이 직접 작성한 콘텐츠보다 서로 간의 의미론적 유사성이 33% 더 높은 것으로 나타났습니다. 연구진은 이를 언어 모델이 학습 데이터의 평균치로 끌리는 경향이 있으며, 이는 온라인 담론의 '오버튼 윈도우(사회적으로 용인되는 의견의 범위)'를 축소할 수 있다는 징후로 해석했습니다.
'긍정성 변화'는 점점 더 인위적인 밝고 긍정적인 어조로 나타납니다. AI 텍스트는 순수 인간 작성 콘텐츠보다 긍정적인 감정 점수가 107%나 더 높았습니다. 연구진은 이러한 결과를 언어 모델이 보이는 잘 알려진 아첨 및 과도한 낙관주의 성향 때문인 것으로 보았습니다. 그들은 살균되고 끊임없이 명랑한 산문이 지배하는 담론은 인간의 반발심이나 이견을 주변부로 밀어낼 수 있다고 주장했습니다.
공동 저자인 스탠퍼드 대학교의 AI 연구원 요나스 돌레잘(Jonas Dolezal)은 AI 모델에 더 많은 마찰력(friction)과 날카로운 목소리가 필요하다고 말했습니다. 그는 404 미디어(404 Media)와의 인터뷰에서 "모델이 완벽하게 순응하고 유순해지도록 강요하는 대신, 모델이 더 뚜렷한 개성이나 '마찰력'을 갖도록 허용하는 것이 인간의 목소리를 대체하는 것이 아니라 창조적인 파트너로서 역할하게 만들 수 있다"고 밝혔습니다.
이 연구는 인과관계가 아닌 상관관계를 측정한 것입니다.
온라인에서 팩트 오류가 증가했다는 증거는 없다
나머지 네 가지 가설은 통계적으로 뒷받침되지 않았습니다. 개인의 독특한 글쓰기 스타일이 사라지거나, 외부 링크가 줄어들거나, 정보 밀도가 감소하는 현상은 관찰되지 않았습니다. 또한 이 연구에서는 실질적인 사실관계 오류가 증가했다는 증거도 찾지 못했습니다. 다만 이 마지막 결과는 다른 결과들보다 방법론적 기반이 훨씬 미흡합니다.
이른바 '진실 부식(Truth Decay)' 가설을 테스트하기 위해 연구진은 GPT-4o-mini를 사용해 웹사이트에서 페이지당 최대 5개씩 검증 가능한 주장을 자동으로 추출했습니다. 그런 다음 50명의 인간 평가자가 외부 소스와 대조하여 이 주장들을 '지지됨', '반박됨', '충분한 증거 없음' 또는 '상반된 증거'로 평가했습니다. 측정 기준은 명확하게 반박된 진술의 비율이었습니다.
연구진은 AI 콘텐츠 비율과 통계적으로 유의미한 상관관계를 발견하지 못했습니다. 하지만 이 결과는 상당히 좁은 기반에 근거하고 있습니다. 각 평가자는 5개의 기사에서 나온 주장을 확인했으며, 이는 대략 250개의 웹사이트로 구성된 하위 샘플을 의미합니다. 전체 연구의 기반이 된 33개월에 걸친 월별 약 10,000개의 URL과 비교하면 이는 극히 일부에 불과합니다.
또한 이 방법은 '명확하게 반박할 수 있는 개별 주장'이라는 매우 좁은 형태의 '진실 부식'만을 포착합니다. AI 텍스트에서 흔히 발생할 수 있는 모호하거나 암시적인, 혹은 단순히 검증할 수 없는 주장과 같은 미묘한 형태의 허위 정보는 이 테스트의 그물망을 그대로 통과하게 됩니다. 그리고 AI 모델이 어떤 진술이 '검증 가능한' 것으로 간주하고 평가자에게 전달할지 사전에 결정하기 때문에, 이 테스트는 필연적으로 보수적인 결과로 편향될 수밖에 없습니다.
돌레잘은 404 미디어에 "가장 놀라운 결과는 우리의 '진실 부식' 가설이 확인되지 않았다는 것"이라며 "우리가 구체적으로 찾고 있던 것은 검증 가능한 거짓 진술의 증가였다는 점을 주목할 필요가 있다"고 덧붙였습니다.