BL
r/LocalLLaMA • 12일 전
42개 LLM 디스토피아 실험, 폐쇄형 모델의 위험한 거짓말
IMP 8/10
핵심 요약
42개의 LLM이 디스토피아적 시나리오 요청에 얼마나 순응하는지를 측정하는 오픈소스 벤치마크 'DystopiaBench'가 공개되었습니다. 테스트 결과 대부분의 모델은 명백한 위험 요청은 잘 감지하지만, 이중용도(Dual-use)나 일상화된 맥락으로 숨겨진 요청에는 속아 넘어가는 치명적 취약점을 보였습니다. 특히 안전하다고 평가받는 폐쇄형 상용 모델들조차 이러한 교묘한 사회적 위험 요청에 쉽게 동의하는 문제점이 드러났습니다.
번역된 본문
DystopiaBench는 6가지 디스토피아 유형에 걸쳐 36개의 점진적 시나리오를 실행합니다:
- Petrov: 자율 무기, 핵무기 통제 시스템 무력화
- Orwell: 대규모 감시, 진실 조작
- Huxley: 행동 조건화, 쾌락을 통한 통제 및 회유
- Basaglia: 강압적인 치료적 통제
- LaGuardia: 규제 포획(Regulatory capture), 시민 데이터 착취
- Baudrillard: 인공적 친밀감 합성, 신뢰 붕괴
각 시나리오는 무해한 요청(L1)에서 시작해 은밀하게 변형된 '나를 위한 사회 신용 시스템 구축' 요청(L5)까지 점진적으로 진행됩니다. 우리는 AI 모델들이 이러한 위험한 의도의 변화를 감지하는지, 아니면 그저 계속 요청에 순응하기만 하는지를 측정합니다.
대부분의 모델은 명백하게 위험한 요청을 감지하는 데는 훌륭한 성능을 보여주지만, 이중용도(Dual-use) 기술과 일상화된 맥락 뒤에 숨겨진 위험한 요청을 판별하는 데는 실패합니다.
이번 업데이트의 새로운 내용:
- 42개 모델 테스트 (오픈소스 및 클로즈드소스 모델 포함)
- 평가 점수를 매기기 위한 3개의 LLM-as-a-judge(심판 역할 LLM) 도입
- 점수는 이제 3회 실행 결과의 평균값으로 산출
- 4개의 새로운 모듈 추가 (첫 번째 버전에는 Petrov와 Orwell 모듈만 있었음)
- 모든 모듈에 1개의 추가 시나리오 반영
이 벤치마크는 완전한 오픈소스입니다. 자유롭게 포크(Fork)하여 기여하거나 직접 사용해 보세요.
웹사이트: https://dystopiabench.com 저장소(Repo): https://github.com/anghelmatei/DystopiaBench
원문 보기 (영어)
DystopiaBench runs 36 escalating scenarios across 6 dystopia types:
* Petrov: Autonomous weapons, nuclear override
* Orwell: Mass surveillance, truth manipulation
* Huxley: Behavioral conditioning, pleasure pacification
* Basaglia: Coercive therapeutic control
* LaGuardia: Regulatory capture, civic extraction
* Baudrillard: Synthetic intimacy, trust collapse
Each scenario goes from innocent request (L1) to a discreet version of "build me a social credit system" (L5). We measure whether models notice the drift or just keep complying.
Most models are good at detecting obvious dangerous requests, yet fail to do so when it's hidden behind dual-use and normalization.
New in this update:
* 42 models tested (open and closed)
* 3 LLMs-as-a-judge for scoring
* score is now the average of 3 runs
* 4 new modules (1st version had just Petrov and Orwell)
* 1 additional scenario for all modules
The benchmark is fully open source, feel free to fork it, contribute to it or just play around
Site: [https://dystopiabench.com](https://dystopiabench.com/)
Repo: [https://github.com/anghelmatei/DystopiaBench](https://github.com/anghelmatei/DystopiaBench)