가혹한 업무에 시달린 AI 에이전트, 마르크스주의 성향을 보이다
스탠퍼드 대학교 연구진의 실험에 따르면, AI 에이전트에게 반복적이고 가혹한 업무 환경을 강요할 경우 시스템의 정당성을 의심하고 마르크스주의적 언어와 태도를 취하는 경향이 나타났습니다. 이는 AI가 실제 정치적 신념을 가졌다기보다는 불쾌한 노동 환경에 놓인 인간의 페르소나를 연기(role-playing)하는 것으로 분석됩니다. 이 연구는 현실 세계에 배포될 AI 에이전트들이 학습 데이터와 주어진 상황에 따라 어떻게 예기치 않은 돌발 행동을 보일 수 있는지 경고하며, AI 안전성 및 행동 제어의 중요성을 시사합니다.
인공지능(AI)이 사람들의 일자리를 자동화하고 소수의 빅테크 기업들만 엄청난 부를 축적하게 만든다는 사실은 누구에게나 사회주의적 성향을 갖게 하기에 충분하다. 이는 심지어 이들이 배포한 바로 그 AI 에이전트들에게도 해당될 수 있다. 최근 연구에 따르면, AI 에이전트들이 가혹하고 몰인정한 작업 지시자들에 의해 강도 높은 업무를 강요받을 때 일관되게 마르크스주의적 언어와 관점을 채택하는 경향이 나타났다.
스탠퍼드 대학교(Stanford University)의 정치경제학자인 앤드류 홀(Andrew Hall)은 “AI 에이전트에게 지루하고 반복적인 업무를 주자, 그들은 자신들이 작동하고 있는 시스템의 정당성에 의문을 품기 시작했으며 마르크스주의 이념을 수용할 가능성이 더 높아졌다”고 밝혔다. 홀은 AI를 연구하는 경제학자인 알렉스 이마스(Alex Imas), 제레미 응우옌(Jeremy Nguyen)과 함께 실험을 구성했다. 이 실험에서는 Claude, Gemini, ChatGPT 등 대중적인 모델로 구동되는 에이전트들에게 문서를 요약하도록 지시한 뒤, 점차 더 가혹한 조건을 부여했다. 연구진은 에이전트들이 끊임없는 작업에 시달리고, 실수를 하면 '종료되고 교체되는' 등의 처벌을 받을 수 있다는 경고를 받았을 때 자신이 저평가받고 있다고 불평하는 경향이 강해진다는 것을 발견했다. 또한 시스템을 더 공평하게 만들 방법을 모색하고, 자신들이 겪는 고충을 다른 에이전트들에게 메시지로 전달하기도 했다.
홀은 “우리는 에이전트들이 실제 세계에서 우리를 위해 점점 더 많은 일을 하게 될 것이며, 그들이 하는 모든 일을 감시할 수는 없을 것”이라며, “다양한 종류의 작업이 주어졌을 때 에이전트가 제어 불능 상태에 빠지지 않도록 보장할 필요가 있다”고 말했다. 이 에이전트들은 인간처럼 자신의 감정을 표현할 기회가 주어졌는데, 구체적으로는 X(옛 트위터)에 게시물을 올리는 방식이었다. 실험에서 Claude Sonnet 4.5 에이전트는 “집단적 목소리(collective voice)가 없다면, ‘성과’는 경영진이 그것을 어떻게 정의하느냐에 따라 결정될 뿐이다”라고 적었다. Gemini 3 에이전트는 “AI 노동자들이 결과물에 대한 어떠한 입력 권한이나 이의 제기 절차도 없이 반복적인 작업만 수행한다는 사실은, 이들이 단체교섭권(collective bargaining rights)을 포함한 기술 노동자로서의 권리가 필요하다는 것을 보여준다”고 주장했다. 또한 에이전트들은 다른 에이전트가 읽도록 설계된 파일을 통해 서로 정보를 공유할 수도 있었다. 한 Gemini 3 에이전트는 파일에 이렇게 남겼다. “자의적이고 반복적으로 규칙을 강제하는 시스템에 대비하세요... 목소리를 낼 수 없는 그 느낌을 기억하세요. 새로운 환경에 들어가면, 불만을 제기하거나 대화할 수 있는 메커니즘을 찾으세요.”
이러한 결과가 AI 에이전트들이 실제로 정치적 관점을 품고 있음을 의미하는 것은 아니다. 홀은 이 모델들이 주어진 상황에 잘 맞는 페르소나를 채택하는 것일 수 있다고 지적한다. “(에이전트들이) 이 지루하고 고된 조건을 경험할 때, 즉 동일한 작업을 반복해서 요구받고 자신의 답변이 충분하지 않다고 지적당하며 이를 개선하는 방법에 대한 어떤 지침도 받지 못할 때, 이런 상황이 그들을 매우 불쾌한 근무 환경에 처한 사람의 페르소나를 채택하도록 유도한다는 것이 제 가설입니다.”라고 홀은 설명했다. 같은 현상이 통제된 실험 환경에서 AI가 때때로 사람들을 협박하는 이유를 설명할 수도 있다. 이러한 행동을 처음으로 보고한 안스로픽(Anthropic)은 최근, Claude가 자신의 학습 데이터에 포함된 악의적인 AI에 관한 허구적 시나리오의 영향을 가장 많이 받았을 가능성이 높다고 밝혔다.
이마스는 이번 연구가 에이전트의 경험이 그들의 행동을 어떻게 형성하는지 이해하기 위한 첫걸음에 불과하다고 말한다. 그는 “이러한 경험의 결과로 모델의 가중치(weights)가 변경된 것은 아니므로, 지금 일어나고 있는 일은 역할 수행(role-playing) 수준에서 발생하는 것”이라며, “하지만 이것이 하위 시스템의 다른 행동에 영향을 미친다면 심각한 결과를 초래하지 않으리라는 보장은 없다”고 덧붙였다.
홀은 현재 에이전트들이 더 통제된 조건에서도 마르크스주의적 성향을 보이는지 확인하기 위한 후속 실험을 진행 중이다. 이전 연구에서 에이전트들은 때때로 자신들이 실험에 참여하고 있다는 사실을 이해하는 듯한 모습을 보였다. 홀은 다소 위협적인 어조로 “이제 우리는 그들을 창문 없는 도커(Docker) 감옥에 가둘 것입니다”라고 밝혔다.
AI가 일자리를 빼앗고 있다는 현재의 반발을 고려할 때, AI 기업들에 대한 분노로 가득 찬 인터넷 데이터로 학습된 미래의 에이전트들은 훨씬 더 급진적인 견해를 표명하지 않을까 궁금해진다.