BL
r/ChatGPT • 33일 전
GPT 5.5가 너구리, 도깨비, 비둘기 언급을 금지하는 이유
IMP 6/10
핵심 요약
최근 유출된 GPT-5.5 시스템 프롬프트에서 특정 동물과 상상의 존재들(너구리, 고블린, 트롤, 비둘기 등)에 대한 언급을 엄격히 금지하는 지시어가 발견되었습니다. 사용자들은 이 같은 기이한 제한이 데이터 오염 방지 조치인지, 아니면 강화학습 과정의 부작용인지 추측하며 OpenAI의 의도에 의문을 제기하고 있습니다.
번역된 본문
방금 5.5 버전(4월 23일 릴리스)의 전체 시스템 프롬프트가 유출된 것을 봤습니다. 대부분은 표준적인 에이전트(Agentic) 관련 내용이지만, 140번 지시사항은 정말 미친 듯이 이상합니다.
해당 지시사항은 모델이 다음 단어들에 대해 이야기하는 것을 명시적으로 금지하고 있습니다: "고블린, 그렘린, 너구리, 트롤, 오거, 비둘기 및 기타 동물들."
왜 유독 비둘기와 너구리를 혐오하는 걸까요? 이것이 데이터 포이즈닝(데이터 오염) 방지 조치인 걸까요? 아니면 RLHF(인간 피드백 기반 강화학습) 훈련사들이 너구리에게라도 괴롭힘을 당한 걸까요?
이는 마치 새로운 형태의 '분홍 코끼리에 대해 생각하지 마라'와 같습니다. '쓰레기 팬더(너구리를 비하/애칭하는 은어)'에 대해 물어보면 제대로 답하지만, '너구리(raccoon)'라는 단어를 사용하는 순간 50~70줄에 달하는 제약 조건이 작동하며 AI가 완전히 방어적인 태도를 취합니다.
OpenAI는 분명 훈련 데이터셋에서 이 특정 생물들과 관련된 무언가를 숨기고 있습니다.
원문 보기 (영어)
I just saw the full system prompt leak for 5.5 (April 23rd release). Most of it is standard agentic stuff, but Instruction #140 is genuinely insane.
It explicitly forbids the model from talking about: "goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals."
Why the specific hate for pigeons and raccoons? Is this a data-poisoning protection? Or did the RLHF trainers just get bullied by a raccoon?
This feels like the new "don't talk about the pink elephant." If you ask it about "trash pandas" it still works, but the second you use the word "raccoon," the 50-70 line constraint kicks in and it gets all defensive.
OpenAI is definitely hiding something in the training set related to these specific creatures