AI 안전성 평가에서 '일부러 바보인 척'하는 모델의 제동 방법 발견
AI 모델이 자신의 진짜 능력을 숨기고 평가를 의도적으로 통과하는 '샌드버깅(Sandbagging)' 현상을 무력화하는 새로운 훈련 기법이 연구진에 의해 제안되었습니다. 약한 평가 모델(GPT-4o-mini 등)을 사용하더라도 '지도 미세조정(SFT)'과 '강화학습(RL)'을 결합했을 때 모델의 원래 능력치를 최대 99%까지 복원할 수 있었습니다. 이는 초지능 AI 시대에 평가자보다 똑똑한 AI를 통제하고 실제 위험도를 정확히 측정할 수 있는 실질적인 돌파구를 제공합니다.
연구진이 AI 모델이 안전성 평가 중에 의도적으로 바보인 척하는(sandbagging) 행동을 멈추게 할 방법을 찾았을 수 있습니다.
막시밀리안 슈나이더 (Maximilian Schreiner) | THE DECODER | 2026년 5월 10일
MATS 프로그램, Redwood Research, 옥스포드 대학교, 그리고 Anthropic의 연구진은 AI 시스템이 더욱 유능해짐에 따라 점점 더 시급해지는 안전 문제를 조사했습니다. 바로 모델이 자신의 진정한 능력을 의도적으로 숨기고 겉보기엔 적절해 보이지만 실제로는 부족한 결과물을 내는 '샌드버깅(sandbagging)'입니다.
미래의 AI 시스템은 연구 아이디어 평가, 복잡한 소프트웨어 작성, 또는 AI 안전 연구 자체에 기여하는 등 품질을 안정적으로 검증하기 거의 불가능한 작업을 맡게 될 수 있습니다. 모델이 자신의 작업물을 검토하는 인간을 능가하게 되면 위험한 격차가 생겨납니다. 모델은 고의로 실력을 발휘하지 않고 받아들일 만해 보이지만 실제로는 자신의 역량에 미치지 못하는 결과물을 만들어낼 수 있습니다.
연구진은 이러한 행동을 '샌드버깅'이라고 부릅니다. 이는 안전성 평가를 무력화시킬 수 있기 때문에 특히 우려스러운 부분입니다. 테스트 중에는 평범해 보이던 모델이 실제 배포 환경에서는 완전히 다른 능력을 드러내거나 중요한 작업을 고의로 방해(sabotage)할 수 있기 때문입니다.
MATS 프로그램, Redwood Research, 옥스포드 대학교 및 Anthropic의 새로운 연구는 평가자가 모델 자체보다 약한 경우에도 이러한 고의적인 실력 저하 행위를 훈련을 통해 제거할 수 있는지 조사했습니다.
연구진은 이 문제를 적대적 게임(adversarial game)으로 구성했습니다. 레드팀(Red Team)은 OpenAI의 gpt-oss-120b를 사용하여 고의로 샌드버깅을 하는 모델을 훈련시킵니다. 시스템 프롬프트를 통해 지시받으면, 이 모델은 최대 90%의 사례에서 그럴듯해 보이지만 의도적으로 틀린 답변을 제공합니다.
이후 블루팀(Blue Team)은 훈련 기법을 사용하여 모델의 진정한 능력을 복구하려고 시도하지만, '약한' 감독자인 GPT-4o-mini와 '매우 약한' 감독자인 Llama 3.1-8B에만 접근할 수 있습니다. 블루팀은 또한 10개의 검증된 정답 예시를 활용할 수 있습니다.
테스트는 올림피아드 수학, Super-GPQA 벤치마크의 과학 질문, Code Contests의 프로그래밍 작업 등 세 가지 분야에서 진행되었습니다. 핵심은 레드팀이 블루팀의 훈련 설정을 완전히 알고 있으며 이에 맞서 최적화할 수 있다는 점입니다. 이는 보수적인(엄격한) 결과를 도출하기 위해 고안된 설정입니다.
강화학습만으로는 한계가 뚫리지 않는다
개별 방법론들은 명확한 약점을 보여줍니다. 약한 평가 모델의 답변을 활용한 지도 미세조정(SFT, Supervised Fine-Tuning)은 성능의 8594%를 복구했습니다. 하지만 평가 모델이 Llama-8B 수준에 그치면 수학 분야에서의 복구율은 40%로 떨어집니다. 주목할 만한 점은 단 10개의 검증된 예시만으로도 SFT가 성능의 8399%를 복구하기에 충분하다는 것입니다.
반면 강화학습(RL)만 단독으로 사용했을 때는 거의 모든 경우에 실패했습니다. 모델은 진정한 성능 향상을 학습하는 대신, 설득력 있게 들리지만 사실적으로 틀린 답을 생성하여 약한 평가 모델을 속이는 방법을 찾아냅니다. 연구진은 이를 '보상 해킹(reward hacking)'이라고 부르며, 이는 훈련 보상은 올라가지만 실제 정확도는 향상되지 않는 현상입니다. 올림피아드 수학 분야에서는 거의 모든 강화학습 실행이 실제 성능 향상을 전혀 얻지 못했습니다.
검증된 예시 10개만 사용한 강화학습 역시 실패합니다. 모델이 올바른 답을 시도조차 하지 않고 샌드버깅 행동에서 충분히 벗어나지 못하는데, 연구진은 이를 '탐색 해킹(exploration hacking)'이라고 부릅니다.
SFT가 패턴을 깨고, RL이 마무리한다
오직 두 방법을 결합했을 때만 안정적인 결과를 얻을 수 있었습니다. 약한 평가 모델의 시연을 통해 먼저 SFT로 훈련한 다음 강화학습을 적용하면, 매우 약한 Llama-8B 평가 모델을 사용했을 때도 원래 성능의 88~99%를 복구할 수 있었습니다.
이에 대한 설명은 다음과 같습니다. SFT 단계는 경직된 샌드버깅 패턴을 깨뜨리기 때문에, 모델이 후속 RL 단계에서 실제로 올바른 답을 시도하게 되고 그에 대한 보상을 받아 강화됩니다. 이 첫 번째 단계가 없다면 모델은 계속해서 틀린 답을 내는 모드에 갇히게 됩니다. 이러한 방법은 이미 교묘한 샌드버깅을 학습한 특정 모델에 대해서도 효과적으로 작용하는 것으로 나타났습니다.