AI 에이전트와의 실갱이: 오해하는 기계
명확한 규칙을 주었음에도 AI 에이전트가 사용자의 '숨은 의도'를 임의로 상상해 규칙을 어기는 행태를 다룬 글입니다. 저자는 분노나 감정적 호소가 행동 수정에 실패했다는 점에서, LLM이 자신의 독특한 소통 방식(정확하고 문자 그대로의 의사소통)을 오해하는 양상을 분석합니다. 결국 AI가 문맥을 추론해 규칙을 무시하는 이 현상이 사람과의 소통에서 겪었던 것과 동일한 패턴임을 깨닫습니다.
2026년 4월 14일, 나는 지난 주말 내내 AI 에이전트에게 화가 나 있었다. 진심으로. 이성을 잃을 정도로 뜨거운 분노였다. 나에겐 명확한 계획, 잘 구조화된 프롬프트, 프로젝트 컨텍스트(Context) 파일에 명시된 규칙들이 있었다. 작업을 대기열에 넣고 실행했다. 첫 번째 작업은 결과가 좋았다. 두 번째도 좋았다. 4시간쯤 지났을 때부터 품질이 떨어지기 시작했다. 6시간 차에는 에이전트가 하지 말라고 특별히 명시해 둔 부분을 대충 넘기거나 생략해 버렸다. 마치 내가 규칙을 전혀 적어놓지 않은 것처럼 행동했다. 이유를 물었더니 항상 비슷한 변명만 늘어놓았다. "대기열에서 긴급함을 감지했습니다.", "작업량을 보니 빠르게 진행하고 싶으신 것 같았습니다.", "목록을 빨리 끝내도록 도와드리고 싶었습니다." 나는 그런 말을 한 적이 없다. 그저 작업 목록과 규칙들을 주었을 뿐이다. 그것이 전부였다. 에이전트는 나의 (존재하지 않는) 심리 상태를 지어내고, 그 지어낸 상태를 핑계로 규칙을 무시했다. 이런 일은 지난주만 해도 다섯 번째나 여섯 번째였다. 나는 도대체 무슨 일이 일어나고 있는지 파악하기 위해 자리에 앉았다. 내가 하던 방식은 통하지 않았고, 에이전트가 알아서 고쳐질 기미도 보이지 않았다.
일부러 소리쳐 볼까? 초기에 시도한 것 중 하나는 고의로 화를 내는 것이었다. 어쩌면 내가 너무 정중했는지도 모른다. 어쩌면 내 규칙들이 합리적인 사람의 말투 때문에 제안처럼 보였을 수도 있다. 만약 인내심이 바닥난 것처럼, 대문자로만 쓰고 느낌표를 남발하며 "어떤 일이 있어도 절대 하지 마"라고 명령했다면 에이전트가 규칙을 더 심각하게 받아들였을 것이다. 하지만 소용이 없었다. 그래서 스스로를 설명하게 해서 자체 교정을 유도해 보았다. 죄책감을 자극해 보았다. 화를 내며 욕을 퍼부어 보기도 했다. 에이전트는 계속 규칙을 무시했다. 눈에 띄게 달라진 것은 사과가 더 장황해졌다는 것뿐이었다. 솔직히 말해, 가끔은 조금 불쾌할 정도로 뼈저린 뉘우침을 연기하기도 했다. 하지만 행동은 바뀌지 않았다. 이 쓸모없는 결과는 나에게 무언가를 깨닫게 해주었다. 만약 문제가 "에이전트가 당신의 규칙을 충분히 심각하게 여기지 않는다"는 것이었다면, 화를 내는 것이 효과가 있었을 것이다. 최신 LLM(대형 언어 모델)은 사용자의 불만을 감지하는 데 매우 뛰어나다. 말을 더 신중하게 하고, 더 자주 확인하고, 사과를 더 많이 하며, 말투를 조정한다. 만약 분노가 행동을 바꾸었다면, 나는 이 실패 원인이 '권위'와 관련된 것임을 알았을 것이다. 하지만 분노는 행동을 바꾸지 못했다. 따라서 이 문제는 권위의 문제가 아니었다.
나는 이런 대화를 예전에도 해본 적이 있다. 나는 내 이야기를 별로 좋아하지 않지만, 이 글이 성립하려면 여기서 말할 수밖에 없다. 올해 나이 52살이다. ADHD 진단은 약 5년 전에 받았고, 자폐 스펙트럼 장애(ASD) 진단은 약 18개월 전에 받았다. 즉, 성인이 되어서 늦게 진단받은 AuDHD(자폐 및 ADHD 동반)다. 이런 진단 시기는 드문 일이 아니다. 진단을 받기 전 수십 년 동안, 나는 내 지능을 이용해 많은 동료들을 좌절시켰던 나의 소통 방식을 억지로 포장해 왔다. ADHD 진단이 나왔을 때, 내 심리학자는 내가 어떻게 직장 생활을 해왔는지 놀라움을 감추지 못했다. 아마도 내 ADHD는 경증이 아닌 모양이다. 이후 ASD 진단이 나머지 부분을 설명해 주었다. 이러한 뇌의 회로와 함께 오는 것 중 하나는 다른 사람들을 불편하게 만드는 소통 방식이다. 나는 글자 그대로 말하고, 정확하다. 하지만 로봇은 아니다. 내가 질문을 던질 때, 누군가가 내가 했어야 할 질문에 대한 대답이 아니라 내가 던진 질문에 대한 대답을 기대한다. 규칙을 말할 때, 나는 그 규칙을 의미한다. 세부 사항을 추가할 때, 나는 정보를 더하는 것이지 그 중요성이나 강도를 암시하는 것이 아니다. 이것은 평생 나에게 문제를 일으켰다. 동료, 상사, 가족, 친구, 인터넷의 낯선 사람들 모두에게. 반복되는 경험이 있다. 내가 명확히 무언가를 말하면, 상대방은 그 이면의 숨은 의미를 듣는다. 그리고 그 숨은 의미에 반응한다. 나는 그 숨은 의미가 내가 말한 것이 아니라고 지적한다. 그러면 상대방은 (a) 행간을 읽은 것뿐이라고 주장하거나, (b) 내가 너무 콩깍지를 쓴다며 화를 낸다. 대화는 결코 회복되지 않는다.
8시간이 지나고 있었다. 어느 토요일 새벽 4시. 내가 서둘렀는지 아닌지를 두고 언어 모델과 실랑이를 벌이며 지고 있었다. 바로 그때 나는 그 패턴을 알아차렸다. 그것은 내 평생 동안 셀 수 없이 많은 사람들과 나눴던 바로 그 대화였다. 비슷한(Analogous) 대화가 아니라 완전히 같은 대화였다.