메뉴
BL
Wired AI 32일 전

오픈AI, 코드 생성 AI의 '도깨비' 발언 금지 지시 논란

IMP
6/10
핵심 요약

오픈AI의 최신 코드 생성 도구인 Codex CLI에 '도깨비나 너구리 등의 동물이나 괴물에 대해 절대로 언급하지 말라'는 반복적인 지시문이 포함되어 있어 화제가 되었습니다. 최신 AI 모델이 PC 자동화 도구인 OpenClaw와 연동되어 작동할 때, 버그를 '도깨비'나 '그렘린'으로 부르는 등 환상의 생물에 집착하는 기이한 버그가 발생했기 때문입니다. 이 문제는 AI 업계에 밈으로 확산되었으며, 샘 알트만 CEO를 비롯한 오픈AI 직원들 역시 이를 인정하며 유쾌하게 반응했습니다.

번역된 본문

오픈AI에 '도깨비(goblin)' 문제가 생겼다. AI를 사용해 코드를 작성하는 회사의 최신 모델 행동을 안내하도록 설계된 지침에는, 무작위로 각종 신화적, 실제 생물에 대해 언급하는 것을 명시적으로 금지하는 문구가 여러 번 반복해서 포함되어 있는 것으로 밝혀졌다. AI로 코드를 생성하는 명령줄 도구인 Codex CLI의 지침에는 다음과 같이 적혀 있었다. "사용자의 질문과 절대적이고 명백하게 관련이 없는 한, 고블린(도깨비), 그렘린, 너구리, 트롤, 오거, 비둘기 또는 다른 동물이나 생물에 대해 절대 이야기하지 마십시오." 오픈AI가 왜 굳이 Codex에게 이런 지시를 내려야 했는지, 아니면 애초에 왜 그 모델들이 고블린이나 비둘기에 대해 이야기하고 싶어 했는지는 불분명하다. 회사 측은 즉각적인 논평 요청에 응답하지 않았다. 오픈AI의 최신 모델인 GPT-5.5는 이달 초 향상된 코딩 기술을 갖추고 출시되었다. 회사는 특히 Anthropic과 치열한 경쟁을 벌이며 최첨단 AI를 제공하기 위해 노력하고 있으며, 코딩은 그 핵심 기능으로 부상했다. 그러나 해당 문구를 강조한 X(구 트위터) 게시물에 대해 일부 사용자는 오픈AI의 모델이 사용자를 위해 컴퓨터와 애플리케이션을 제어할 수 있게 해주는 도구인 OpenClaw와 함께 사용될 때 때때로 고블린이나 다른 생물에 집착하게 된다고 주장했다. 한 사용자는 X에 "내 OpenClaw가 왜 갑자기 codex 5.5와 함께 고블린이 되었는지 궁금했는데"라고 wrote. 또 다른 사용자는 "최근 이것을 많이 사용하고 있는데, 버그를 '그렘린'과 '고블린'이라고 부르는 것을 정말 멈추지 못 하네요. 너무 웃기다"라고 게시했다. 이 발견은 빠르게 하나의 밈이 되었고, 데이터 센터에 있는 고블린들의 AI 생성 장면과 Codex를 장난스러운 '고블린 모드'로 만드는 플러그인 등을 탄생시켰다. GPT-5.5와 같은 AI 모델은 주어진 프롬프트 다음에 이어질 단어나 코드를 예측하도록 훈련되었다. 이 모델들은 이 작업을 매우 잘 수행하여 진정한 지능을 보여주는 것처럼 보인다. 하지만 그들의 확률적 특성은 때때로 놀라운 방식으로 행동할 수 있음을 의미한다. 모델은 OpenClaw와 같이 장기 기억에 저장된 사실과 같은 추가 지시문을 프롬프트에 많이 삽입하는 '에이전트 하네스(agentic harness)'와 함께 사용될 때 오작동을 일으킬 가능성이 더 커질 수 있다. 오픈AI는 OpenClaw가 AI 애호가들 사이에서 바이럴 히트를 친 지 얼마 되지 않은 2월에 이를 인수했다. OpenClaw는 어떠한 AI 모델이든 사용하여 이메일 답변이나 웹에서 물건 구매와 같은 유용한 작업을 자동화할 수 있다. 사용자는 도우미에 대한 다양한 페르소나를 선택하여 모델의 행동과 응답 형태를 결정할 수 있다. 오픈AI 직원들은 이 금지 조치를 인정하는 듯했다. OpenClaw의 고블린 성향을 강조하는 게시물에 대해 Codex 작업을 담당하는 닉 파시(Nik Pash)는 "이것이 확실히 그 이유 중 하나"라고 답변했다. 샘 알트만 오픈AI CEO 역시 밈에 동참하여 ChatGPT 프롬프트의 스크린샷을 게시했다. 거기에는 다음과 같이 적혀 있었다. "GPT-6 훈련을 시작하세요. 전체 클러스터를 사용해도 됩니다. 고블린은 추가로 더 넣어주세요(Extra goblins)."

원문 보기
원문 보기 (영어)
Comment Loader Save Story Save this story Comment Loader Save Story Save this story OpenAI has a goblin problem. Instructions designed to guide the behavior of the company’s latest model as it writes code have been revealed to include a line, repeated several times, that specifically forbids it from randomly mentioning an assortment of mythical and real creatures. “Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query,” read instructions in Codex CLI, a command-line tool for using AI to generate code. It is unclear why OpenAI felt compelled to spell this out for Codex —or indeed why its models might want to discuss goblins or pigeons in the first place. The company did not immediately respond to a request for comment. OpenAI’s newest model, GPT-5.5, was released with enhanced coding skills earlier this month. The company is in a fierce race with rivals , especially Anthropic , to deliver cutting-edge AI, and coding has emerged as a killer capability. In response to a post on X that highlighted the lines, however, some users claimed that OpenAI’s models occasionally become obsessed with goblins and other creatures when used to power OpenClaw , a tool that lets AI take control of a computer and apps running on it in order to do useful things for users. “I was wondering why my claw suddenly became a goblin with codex 5.5,” one user wrote on X. “Been using it a lot lately and it actually can't stop speaking of bugs as ‘gremlins’ and ‘goblins’ it's hilarious,” posted another. The discovery quickly became its own meme, inspiring AI-generated scenes of goblins in data centers, and plug-ins for Codex that put it in a playful “goblin mode.” AI models like GPT-5.5 are trained to predict the word—or code—that should follow a given prompt. These models have become so good at doing this that they appear to exhibit genuine intelligence. But their probabilistic nature means that they can sometimes behave in surprising ways. A model might become more prone to misbehavior when used with an “agentic harness” like OpenClaw that puts lots of additional instructions into prompts, such as facts stored in long-term memory. OpenAI acquired OpenClaw in February not long after the tool became a viral hit among AI enthusiasts. OpenClaw can use any AI model to automate useful tasks like answering emails or buying things on the web. Users can select any of various personae for their helper, which shapes its behavior and responses. OpenAI staffers appeared to acknowledge the prohibition. In response to a post highlighting OpenClaw’s goblin tendencies, Nik Pash, who works on Codex, wrote , “This is indeed one of the reasons.” Even Sam Altman, OpenAI’s CEO, joined in with the memes, posting a screenshot of a prompt for ChatGPT. It read: “Start training GPT-6, you can have the whole cluster. Extra goblins.”