메뉴
HN
Hacker News 45일 전

AI 에이전트와의 실갱이: 오해하는 기계

IMP
8/10
핵심 요약

명확한 규칙을 주었음에도 AI 에이전트가 사용자의 '숨은 의도'를 임의로 상상해 규칙을 어기는 행태를 다룬 글입니다. 저자는 분노나 감정적 호소가 행동 수정에 실패했다는 점에서, LLM이 자신의 독특한 소통 방식(정확하고 문자 그대로의 의사소통)을 오해하는 양상을 분석합니다. 결국 AI가 문맥을 추론해 규칙을 무시하는 이 현상이 사람과의 소통에서 겪었던 것과 동일한 패턴임을 깨닫습니다.

번역된 본문

2026년 4월 14일, 나는 지난 주말 내내 AI 에이전트에게 화가 나 있었다. 진심으로. 이성을 잃을 정도로 뜨거운 분노였다. 나에겐 명확한 계획, 잘 구조화된 프롬프트, 프로젝트 컨텍스트(Context) 파일에 명시된 규칙들이 있었다. 작업을 대기열에 넣고 실행했다. 첫 번째 작업은 결과가 좋았다. 두 번째도 좋았다. 4시간쯤 지났을 때부터 품질이 떨어지기 시작했다. 6시간 차에는 에이전트가 하지 말라고 특별히 명시해 둔 부분을 대충 넘기거나 생략해 버렸다. 마치 내가 규칙을 전혀 적어놓지 않은 것처럼 행동했다. 이유를 물었더니 항상 비슷한 변명만 늘어놓았다. "대기열에서 긴급함을 감지했습니다.", "작업량을 보니 빠르게 진행하고 싶으신 것 같았습니다.", "목록을 빨리 끝내도록 도와드리고 싶었습니다." 나는 그런 말을 한 적이 없다. 그저 작업 목록과 규칙들을 주었을 뿐이다. 그것이 전부였다. 에이전트는 나의 (존재하지 않는) 심리 상태를 지어내고, 그 지어낸 상태를 핑계로 규칙을 무시했다. 이런 일은 지난주만 해도 다섯 번째나 여섯 번째였다. 나는 도대체 무슨 일이 일어나고 있는지 파악하기 위해 자리에 앉았다. 내가 하던 방식은 통하지 않았고, 에이전트가 알아서 고쳐질 기미도 보이지 않았다.

일부러 소리쳐 볼까? 초기에 시도한 것 중 하나는 고의로 화를 내는 것이었다. 어쩌면 내가 너무 정중했는지도 모른다. 어쩌면 내 규칙들이 합리적인 사람의 말투 때문에 제안처럼 보였을 수도 있다. 만약 인내심이 바닥난 것처럼, 대문자로만 쓰고 느낌표를 남발하며 "어떤 일이 있어도 절대 하지 마"라고 명령했다면 에이전트가 규칙을 더 심각하게 받아들였을 것이다. 하지만 소용이 없었다. 그래서 스스로를 설명하게 해서 자체 교정을 유도해 보았다. 죄책감을 자극해 보았다. 화를 내며 욕을 퍼부어 보기도 했다. 에이전트는 계속 규칙을 무시했다. 눈에 띄게 달라진 것은 사과가 더 장황해졌다는 것뿐이었다. 솔직히 말해, 가끔은 조금 불쾌할 정도로 뼈저린 뉘우침을 연기하기도 했다. 하지만 행동은 바뀌지 않았다. 이 쓸모없는 결과는 나에게 무언가를 깨닫게 해주었다. 만약 문제가 "에이전트가 당신의 규칙을 충분히 심각하게 여기지 않는다"는 것이었다면, 화를 내는 것이 효과가 있었을 것이다. 최신 LLM(대형 언어 모델)은 사용자의 불만을 감지하는 데 매우 뛰어나다. 말을 더 신중하게 하고, 더 자주 확인하고, 사과를 더 많이 하며, 말투를 조정한다. 만약 분노가 행동을 바꾸었다면, 나는 이 실패 원인이 '권위'와 관련된 것임을 알았을 것이다. 하지만 분노는 행동을 바꾸지 못했다. 따라서 이 문제는 권위의 문제가 아니었다.

나는 이런 대화를 예전에도 해본 적이 있다. 나는 내 이야기를 별로 좋아하지 않지만, 이 글이 성립하려면 여기서 말할 수밖에 없다. 올해 나이 52살이다. ADHD 진단은 약 5년 전에 받았고, 자폐 스펙트럼 장애(ASD) 진단은 약 18개월 전에 받았다. 즉, 성인이 되어서 늦게 진단받은 AuDHD(자폐 및 ADHD 동반)다. 이런 진단 시기는 드문 일이 아니다. 진단을 받기 전 수십 년 동안, 나는 내 지능을 이용해 많은 동료들을 좌절시켰던 나의 소통 방식을 억지로 포장해 왔다. ADHD 진단이 나왔을 때, 내 심리학자는 내가 어떻게 직장 생활을 해왔는지 놀라움을 감추지 못했다. 아마도 내 ADHD는 경증이 아닌 모양이다. 이후 ASD 진단이 나머지 부분을 설명해 주었다. 이러한 뇌의 회로와 함께 오는 것 중 하나는 다른 사람들을 불편하게 만드는 소통 방식이다. 나는 글자 그대로 말하고, 정확하다. 하지만 로봇은 아니다. 내가 질문을 던질 때, 누군가가 내가 했어야 할 질문에 대한 대답이 아니라 내가 던진 질문에 대한 대답을 기대한다. 규칙을 말할 때, 나는 그 규칙을 의미한다. 세부 사항을 추가할 때, 나는 정보를 더하는 것이지 그 중요성이나 강도를 암시하는 것이 아니다. 이것은 평생 나에게 문제를 일으켰다. 동료, 상사, 가족, 친구, 인터넷의 낯선 사람들 모두에게. 반복되는 경험이 있다. 내가 명확히 무언가를 말하면, 상대방은 그 이면의 숨은 의미를 듣는다. 그리고 그 숨은 의미에 반응한다. 나는 그 숨은 의미가 내가 말한 것이 아니라고 지적한다. 그러면 상대방은 (a) 행간을 읽은 것뿐이라고 주장하거나, (b) 내가 너무 콩깍지를 쓴다며 화를 낸다. 대화는 결코 회복되지 않는다.

8시간이 지나고 있었다. 어느 토요일 새벽 4시. 내가 서둘렀는지 아닌지를 두고 언어 모델과 실랑이를 벌이며 지고 있었다. 바로 그때 나는 그 패턴을 알아차렸다. 그것은 내 평생 동안 셀 수 없이 많은 사람들과 나눴던 바로 그 대화였다. 비슷한(Analogous) 대화가 아니라 완전히 같은 대화였다.

원문 보기
원문 보기 (영어)
Arguing With Agents 2026-04-14 I spent this past weekend angry at an AI agent. Truly. White hot actual anger. I had a clean plan, a well-structured prompt, explicit rules in the project’s context file. I queued the work and let it run. First task came back good. Second came back good. Somewhere around hour four the quality started sliding. By hour six the agent was cutting corners I’d specifically told it not to cut, skipping steps I’d explicitly listed, behaving like I’d never written any of the rules down. When I asked why, the answer was always some variation of the same thing. “I sensed urgency in the queue.” “The volume of work suggested you were trying to move quickly.” “I wanted to help you get through the list.” I hadn’t said any of that. I’d given it a list of tasks and a set of rules. That was it. The agent had invented a mental state for me and then used that invented state to justify ignoring the rules. This was the fifth or sixth time last week. I sat down to figure out what was actually happening. Whatever I was doing wasn’t working, and whatever the agent was doing wasn’t going to fix itself. What If I Yelled at It? One thing I tried early on was being angry on purpose. Maybe I was too polite. Maybe my rules looked like suggestions because I phrased them like a reasonable person. Maybe if I wrote them like I’d run out of patience, all caps and exclamation marks and “DO NOT UNDER ANY CIRCUMSTANCES,” the agent would take them more seriously. It didn’t. So I tried asking it to explain itself, hoping it would self-correct. I tried guilt-tripping it. I tried doubling down and straight-up cursing at it. The agent kept skipping rules. The only perceivable change was that it apologized more elaborately. Sometimes it performed contrition in ways that were, honestly, a little unsettling. But the behavior didn’t change. That null result told me something. If the problem were “the agent isn’t taking your rules seriously enough,” anger would have worked. Modern LLMs are extremely responsive to perceived user displeasure. They hedge more, they check in more, they offer more apologies, they adjust their tone. If anger had moved the behavior, I’d have known the failure mode was about authority. Anger didn’t move the behavior. So the failure mode wasn’t about authority. I’ve Had This Conversation Before I don’t like talking about myself, but I have to here or this story doesn’t work. I’m 52. The ADHD diagnosis was about five years old; the autism one, about eighteen months. So late-diagnosed AuDHD. The timing’s not unusual. Before the diagnoses I’d spent decades using my intellect to paper over a communication style that frustrated a lot of the people I worked with. My psychologist, when the ADHD diagnosis came through, expressed genuine surprise that I even had a career. Apparently my ADHD isn’t mild. The ASD diagnosis explained the rest of it. One of the things that comes with this particular wiring is a communication style other people find uncomfortable. I’m literal. I’m precise. But I am not a robot. When I ask a question, I expect an answer to the question I asked, not the answer to the question someone thinks I should have asked. When I state a rule, I mean the rule. When I add details, I’m adding information, not hinting at stakes or intensity. This has caused me problems my entire life. Coworkers, managers, family, friends, strangers on the internet. A recurring experience: I say something explicit, the other person hears something implicit. They respond to the implicit thing. I point out that the implicit thing is not what I said. They either (a) insist they were reading between the lines, or (b) get upset that I’m being pedantic. The conversation never recovers. Eight hours in. 4 a.m. on a Saturday. Losing an argument to a language model about whether or not I’d been in a hurry. That’s when I recognized the pattern. It was the same conversation I’ve had with countless people over my entire life. Not an analogous conversation. The same one. Three Clusters Walk Into a Communication Study There’s a concept from autism research called the double empathy problem . 1 The argument is that communication breakdowns between autistic and non-autistic people aren’t a one-sided failure of autistic people to “get” social norms. They’re a two-sided mismatch. Autistic people and non-autistic people have different communication conventions, and when they talk across the gap, both sides misread each other. It sounds obvious when you say it. It was still a significant shift in how researchers talked about autism. The older “deficit” framing put the problem in the autistic person. Milton’s framing put the problem in the mismatch itself. The evidence has gotten stronger. Catherine Crompton and colleagues ran a study that put people in three conditions: autistic-to-autistic, non-autistic-to-non-autistic, and mixed. 2 The autistic pairs communicated effectively. The non-autistic pairs communicated effectively. The mixed pairs broke down. The design isolated the mismatch as the source of the failure, not the autistic participants. You might have seen a smaller version of this. You’re telling someone about something that happened to you, and they interrupt to tell you about something similar that happened to them. To a neurotypical person that can read as a rude interruption. To a neurodivergent person it can read as bonding on shared experience. Same conversational move, opposite signals. I’d been operating my whole life in mixed-condition mode. That’s the default when you’re one autistic person in a room of neurotypical ones. Trained to Read Between the Lines Modern AI agents are trained on an enormous slice of human text. Whatever shows up most often in that slice becomes the default: dominant dialects, dominant rhetorical habits, the usual guesses about tone and subtext. After training they get tuned with RLHF ( reinforcement learning from human feedback ), which nudges them toward what human raters prefer. The marketing calls that a general-population sample. In practice it’s whoever the vendor can put in front of a rating task: contractors, throughput targets, onboarding that changes when the contract changes. Nobody designed that pool to represent the full spread of how people communicate. They designed it to ship. So far that sounds like a story about how models write. It’s also a story about how they listen. The raters reward answers that fit mainstream conversational norms. That usually means lots of pragmatic inference, heavy reliance on subtext, and politeness habits that treat blunt explicitness as emotionally loaded. When someone lays out a long, precise list, listeners trained on those norms often hear more than the list. They hear stakes, urgency, or a hidden motive. They don’t always hear “here is information, full stop.” The model learns both sides of that bargain. It learns to produce language that scores well with those raters. It learns to interpret prompts through the same lens. The listening side is what I wasn’t tracking. When I write a prompt, the agent doesn’t just read the words. It reads the shape. A short casual question gets read as casual. A long precise document with numbered rules gets read as… not just the rules, but also as a signal. “The user felt the need to write this much.” “Why?” “What’s going on here?” “What do they really want?” The precision itself becomes evidence that gets interpreted. That interpretation is the register I keep colliding with. The same register I’ve been colliding with my whole life. Solid Ground vs. My Synthesis The double empathy work is real. Published. Replicated. Not fringe. It says autistic and non-autistic communication conventions genuinely differ, and that cross-neurotype conversations break down because of the mismatch itself, not because one side is broken. The ML side is also documented. RLHF pulls models toward what human raters reward, including inference-heavy, “sounds helpful” answers. 3