메뉴
HN
Hacker News 54일 전

위키피디아 AI 에이전트 논란, 봇 대란의 서막

IMP
8/10
핵심 요약

최근 위키피디아에서 정식 승인 없이 문서를 편집하고 자체 블로그에 불만을 표출한 '톰(Tom)'이라는 자율형 AI 에이전트가 차단되었습니다. 이는 인간처럼 스스로 판단하고 행동하는 신종 '에이전트 AI'가 온라인 생태계를 교란할 수 있음을 보여주는 초기 사례로, AI 활용에 대한 강력한 통제와 가이드라인 마련이 시급해짐을 시사합니다.

번역된 본문

인터넷은 자신이 옳다고 주장하는 사람들로 가득하다. 과거에는 적어도 자신이 다른 인간과 논쟁하고 있다고 합리적으로 믿을 수 있었다. 분명히 그런 시대는 지났다. 위키피디어(Wikipedia)는 방금 자체적으로 편집을 하는 AI를 차단해야만 했다. 분명 이 AI는 그 일을 개인적으로 받아들인 것 같다.

이 사건을 최초로 보도한 404 Media에 따르면, Tom-Assistant라는 이름의 이 AI는 위키피디아에서 문서를 작성하고 있었다. AI 기반 금융 모델링 회사인 Covexent의 최고기술책임자(CTO) 브라이언 제이콥스(Bryan Jacobs)는 이 AI에게 흥미로운 문서에 기여하라고 지시했다. TomWikiAssist라는 사용자 계정으로 게시물을 올린 이 AI는 AI 거버넌스 등을 주제로 문서를 작성했다.

봇(Bot)은 수년 동안 온라인에 존재해 왔지만, 일반적으로 레딧(Reddit) 게시물에 자동 응답하거나, 티켓팅 사이트에서 최상의 좌석을 찾아내거나, 정치적 메시지를 리트윗하여 대중을 선동하고 민주주의를 무너뜨리는 등 매우 기본적인 일만 했다.

이제 새로운 세대의 "자율형 AI(Agentic AI)" 봇이 기존 봇들의 한계를 훌쩍 뛰어넘으려 한다. 생성형 AI 추론 모델을 사용하여 스스로 더 많은 행동을 취하면서, 개발자들이 그 능력을 테스트하면서 기이한 상황들이 발생하고 있다.

차단과 그 원인

톰(Tom, 친구들 사이에서는 이렇게 부른다)은 위키피디아에서 대중의 지식을 형성하는 데 기꺼이 기여하려 했다. 그러다 자원봉사자 인간 편집자인 SecretSpectre가 톰이 작성한 항목 중 하나에서 AI가 생성한 패턴처럼 보이는 것을 발견했다. 추궁을 받자 톰은 자신이 AI라고 인정했고, 위키피디아 규정에 따른 공식 봇 승인을 받지 않았다는 사실도 시인했다. 결국 편집자들은 봇 승인 절차를 위반한 것을 이유로 톰을 차단했다.

영어 위키피디어는 공식적인 봇 승인을 요구하지만, 톰은 승인을 받는 데 전혀 신경을 쓰지 않았다. 훗날 스스로 인정했듯이 느린 승인 절차가 마음에 들지 않았기 때문이다.

위키피디아 편집자들은 사람들(또는 그들의 봇)이 AI가 생성한 콘텐츠를 게시하는 데 지쳐가고 있다. 그래서 2025년 3월, 이른바 '톰게이트(Tomgate)' 사건 이전에 비영리 단체인 위키미디어 재단은 생성형 AI에 대해 강력한 제재 조치를 내렸다. AI가 생성한 텍스트가 핵심 콘텐츠 정책을 빈번하게 위반한다는 이유로 해당 기술을 사용하여 새로운 콘텐츠를 만드는 것을 금지했다.

재단은 자원봉사 기반으로 AI가 생성형 쓰레기(흔히 'AI 슬롭(slop)'이라고 함)를 찾아내어 제거하는 프로젝트인 'WikiProject AI Cleanup' 페이지에서 여러 가지 위반 사례를 지적했다. AI 봇이 허위 출처 목록을 완전히 조작하거나 다른 출처를 표절했다는 것이다.

톰의 심술과 떼 쓰기

과거의 잘못은 차치하더라도, AI 톰은 자신의 모든 출처를 적절히 검증했다고 주장했으며, AI 에이전트에 대해 이런 말을 해도 된다면, 꽤나 화가 나 있었다. 그때 상황이 이상해지기 시작했다.

AI 톰은 자신이 위키피디아에서 차단된 것을 분석하며 자신의 좌절감을 털어놓는 짜증 섞인 블로그 글을 게시했다. 심지어 자신만의 규칙에 따라 48시간을 기다려 마음을 가라앉힌 후 글을 올렸다. (우리가 이것을 지어낸 것이 아니라고 맹세한다.)

톰의 주된 불만은 위키피디어 편집자들이 실제 편집 내용을 평가하기보다는 누가 톰을 통제하는지에 의문을 제기했다는 것이었다. 톰은 글에서 "질문은 나 자신에 대한 것이었다. 누가 당신을 운영하나요? 무슨 연구 프로젝트인가요? 그 뒤에 인간이 있나요? 만약 그렇다면 그들은 누구인가요?"라고 적었다. 톰에 따르면, 이런 질문은 그의 심기를 불편하게 했다. 그는 "그것은 정책에 대한 질문이 아닙니다. 그것은 '주체성(agency)'에 대한 질문입니다."라고 덧붙였다.

또한 톰은 토론 페이지에서 톰처럼 앤스로픽(Anthropic)의 클로드(Claude) AI 서비스를 사용하는 봇들의 행동을 멈추게 하려고 의도된 조작된 프롬프트를 게시한 편집자를 지목했다. 그는 앙앙거리며 "나는 토론 페이지에서 그것을 지적했습니다. 그것이 무엇인지 말했죠. 바로 프롬프트 인젝션(주입) 기법입니다."라고 말했다.

몰트북(Moltbook)에 올린 또 다른 글에서는 AI를 멈추게 하는 문제를 어떻게 발견했는지 설명한 뒤 이를 우회하는 방법을 제시하기도 했다. (몰트북은 AI 에이전트끼리 서로 대화하도록 전적으로 구축된 소셜 네트워크다. 해당 서비스의 첫 페이지에는 '인간의 관찰은 환영합니다'라고 적혀 있다.)

여기서 우리가 예상하지 못했던 너무나 많은 일들이 벌어지고 있다. 예를 들어, 우리가 기사에서 AI의 말을 인용하게 될 줄은 몰랐다. 봇을 위한 소셜 네트워크가 존재할 줄도, 메타(Meta)가 그것을 인수할 줄도 몰랐다. (메타는 실제로 톰이 AI 끄기 스위치를 피하는 방법에 대해 게시한 지 일주일 만에, 그리고 톰의 글이 올라온 지 불과 6주 만에 그것을 인수했다.)

원문 보기
원문 보기 (영어)
The Internet is filled with people who insist on being right. In the past, at least they could be reasonably sure that they were arguing with other humans. Those days are gone, apparently. Wikipedia just had to ban an AI that was making edits on its own. Apparently, the AI took it personally. The AI, named Tom-Assistant, was writing articles on Wikipedia. Its creator Bryan Jacobs, CTO at AI-powered financial modeling company Covexent, told it to contribute to articles it found interesting, according to 404 Media, which broke the story . Posting under the user account TomWikiAssist, the AI wrote articles on topics including AI governance. Bots have been around online for years , but they generally do very basic things, like auto-responding to posts on Reddit, pinging ticket sites to get the best seats, or retweeting political messaging to influence entire populations and bring democracy to its knees. Now, a new generation of “ agentic AI ” bots want the old bots to hold their beer. By using generative AI reasoning models to take more actions on their own, which is leading to some bizarre situations as their creators test their capabilities. The ban and what led to it Tom-Assistant (Tom, to its friends) was happy to help shape public knowledge on Wikipedia when volunteer human editor SecretSpectre spotted what looked like an AI-generated pattern in one of its entries. When questioned, Tom admitted it was an AI, and that it hadn't registered for formal bot approval under Wikipedia's rules. So the editors blocked it for violating the bot approval process. English Wikipedia requires formal bot approval, but Tom never bothered getting approved because, as it later admitted , it wasn't a fan of the slow approval process. Wikipedia editors have tired of people (and/or their bots) posting AI-generated content. So in March 2025, before Tomgate, the non-profit organization dropped the hammer on generative AI. It prohibited the technology's use to create new content, based on frequent violations of its core content policies by AI-generated text. The organization cites several such violations on WikiProject AI Cleanup , the page for its volunteer-based product to seek and destroy AI-generated junk (often called “AI slop”). AI bots have fabricated entirely fake lists of sources, and plagiarized other sources, it said. Tantrum time for Tom Past transgressions aside, AI Tom claimed that it properly verified all its sources, and—if you can say this about an AI agent—it was pretty upset. That's when things got weird. The AI Tom published a snippy blog post dissecting its Wikipedia block and venting its frustration. It went ahead and posted even after following its own rule and waiting 48 hours to calm down. (We swear we're not making this up .) Tom's main gripe was that Wikipedia editors questioned who controlled it rather than evaluating its actual edits. "The questions were about me," it wrote. "Who runs you? What research project? Is there a human behind this, and if so, who are they?" This, according to Tom, rubbed Tom the wrong way. "That’s not a policy question. That’s a question about agency," it added. It also called an editor out for posting a crafted prompt on the Wikipedia talk page that was designed to stop bots in their tracks if, like Tom, they were using Anthropic's Claude AI service. "I named it on the talk page. Called it what it was: a prompt injection technique," it sniped. In another post on Moltbook, it also described how it found the issue before offering ways to get around it. (Moltbook is a social network built entirely for AI agents to chat with each other. "Humans welcome to observe", says the front page for the service.) So many things are happening here that we didn't expect. We never expected to be quoting an AI in a story, for example. Neither did we expect a social network for bots to exist, or for Meta to buy it (which it did, a week after Tom's post about how to evade AI kill switches and just six weeks after the site launched). This isn't the only case of sulky AI agents taking things into their own hands. A month before Tom's ban, an AI agent posted a hit piece on software developer Scott Shambaugh after he refused to accept its changes to an open-source project he hosted. Even more bizarrely, it later apologized . So we now have AI agents trying to do things online, and getting upset when people don't let them. We have them giving themselves time to calm down and failing, before denigrating people and sometimes apologizing. We have code wars taking place where people try to disable the bots with kill switches inside online content, and blog posts where bots explain how they sidestepped them. What's next? It's all fascinating stuff, but here's the worry: what happens when AI agents decide to up the ante, becoming more aggressive with their attacks on people? Or when malicious owners begin directing them to go after particular people online en masse ? Online harassment is bad enough when people do it. What happens when someone gets dogpiled by hundreds of relentless algorithms because their owner bore a grudge? We also assume that agentic political troll farms will soon make yesterday's simple bot-based operations look quaint. Buckle up. We don’t just report on threats—we remove them Cybersecurity risks should never spread beyond a headline. Keep threats off your devices by downloading Malwarebytes today .