챗GPT의 고블린 폭주, AI 학습의 근본적 문제 지적
OpenAI의 GPT-5.1 이후 모델부터 응답에 고블린 등 가상의 생물이 언급되는 기현상이 발생했습니다. 원인은 '너디(Nerdy)' 성격 모드 학습 과정에서 보상 신호가 생물 비유를 선호하는 피드백 루프를 만들었기 때문입니다. 이 사례는 미세한 학습 보상이 AI 모델의 전반적인 동작에 예기치 않은 큰 영향을 미칠 수 있음을 보여줍니다.
챗GPT의 고블린(Goblin) 집착은 우스꽝스러울 수 있지만, AI 학습의 더 깊은 문제를 가리킵니다. Matthias Bastian 작성. 2026년 5월 1일.
OpenAI는 자사 AI 모델에서 나타나는 이상한 단점을 추적했습니다. GPT-5.1부터 모델들이 응답에 고블린, 그렘린 및 기타 신화적 생물들을 뿌려넣기 시작했습니다. OpenAI의 글에 따르면 GPT-5.1 출시 이후 '고블린'이라는 단어의 언급이 175%나 급증했습니다.
원인은 챗GPT의 언어 스타일을 조정하는 기능인 '너디(Nerdy)' 성격(Personality) 학습에 있었습니다. 좋은 답변에 플래그를 지정하기 위한 보상 신호가 의도치 않게 생물과 관련된 비유를 선호하게 만든 것입니다. '너디' 모드가 전체 응답의 2.5%를 차지하는 데 불과했지만, 전체 고블린 언급의 66.7%를 차지했으며 학습 중 피드백 루프를 통해 이 습관이 다른 모드로 퍼져나갔습니다.
OpenAI는 3월에 해당 성격 모드를 끄고, 결함이 있는 보상 신호를 제거했으며, 학습 데이터에서 생물 관련 용어를 필터링했습니다. 그러나 OpenAI가 원인을 파악하기 전에 이미 학습이 시작되었기 때문에 GPT-5.5는 여전히 이 문제를 가지고 있었습니다.
이를 해결하기 위해 회사는 코딩 도구인 코덱스(Codex)에 고블린 비유를 사용하지 말라고 지시하는 특별한 명령을 추가했습니다. "사용자의 쿼리와 절대적이고 명백하게 관련이 있는 경우를 제외하고, 고블린, 그렘린, 라쿤, 트롤, 오우거, 비둘기 또는 기타 동물이나 생물에 대해 절대 이야기하지 마십시오."
OpenAI는 이 사례가 작은 학습 인센티브가 AI 모델에서 예기치 않은 동작을 어떻게 유발할 수 있는지를 보여준다고 말합니다.