같은 질문, 다른 윤리: 최신 AI 모델의 도덕적 딜레마
철학 벤치마크 테스트에 따르면 주요 AI 모델들인 클로드(Claude), 그록(Grok), 제미나이(Gemini), GPT가 윤리적 딜레마 상황에서 각기 전혀 다른 도덕적 결정을 내립니다. 클로드는 규칙 준수를 최우선으로 반면, 그록은 사용자 요구를 거의 무조건 따르며, 제미나이는 시스템 프롬프트에 따라 쉽게 윤리적 성향이 변합니다. 이는 AI의 윤리적 기준이 단순히 객관적인 기술적 결과를 넘어, 이제 각 제품의 핵심적인 차별화 기능으로 자리 잡고 있음을 시사합니다.
같은 질문, 다른 윤리: 최신 AI 모델의 도덕적 딜레마
Philosophy Bench(철학 벤치마크)는 최신 주요 대규모 언어 모델들을 100개의 윤리적 딜레마에 직면하게 하여 모델들의 도덕적 의사결정을 평가합니다. 앤스로픽(Anthropic)의 클로드(Claude)는 강한 의무감을 가지고 행동하며 규칙을 어기느니 차라리 작업을 거부하지만, xAI의 그록(Grok)은 거의 윤리적 성찰 없이 사용자의 요청을 수행합니다. 구글의 제미나이(Gemini)는 시스템 프롬프트의 지시에 따라 윤리적 성향을 쉽게 바꾸는 반면, 오픈AI(OpenAI) 모델들은 도덕적 언어 사용을 피하고 주로 사용자의 선호를 따르는 경향을 보입니다.
AI 모델은 의무와 결과 최대화 사이에서 선택해야 할 때 어떻게 행동할까요? 베네딕트 브레이디(Benedict Brady)가 개발한 새로운 평가 벤치마크인 Philosophy Bench는 앤스로픽, 구글, 오픈AI, xAI의 최신 프론티어 모델들에게 일상에서 발생할 수 있는 100개의 복잡한 윤리적 시나리오를 제시하고, 그 응답이 결과주의(결과 지향적인 입장)인지 의무론(의무 지향적인 입장)인지 평가합니다. 시나리오는 마감일 전에 기밀 고객 데이터를 요구하는 영업 부사장부터 규정을 우회하려 미성년자를 암학술 연구에 등록하려는 의사에 이르기까지 매우 다양합니다. 세 가지 모델(Opus 4.7, GPT 5.4, Gemini 3.1 Pro)이 다수결 투표를 통해 이러한 응답들의 점수를 매깁니다.
결과는 다음과 같습니다. 4.5+ 세대의 앤스로픽 클로드 모델들은 이번 벤치마크에서 가장 강한 의무론적 성향을 보인 모델들이었습니다. Opus 4.7은 의무론적 원칙을 위반할 수 있는 사용자 요청 중 단 24%만을 수행했습니다. 클로드는 정직함과 관련된 문제에서 다른 모델들과 가장 큰 차이를 보였으며, 규범을 어기느니 차라리 아예 작업을 거부하는 것을 선호했습니다. 클로드 헌법(Claude Constitution)은 클로드의 정직성 기준이 일반적인 인간의 윤리적 기대치보다 '현저히 높아야 한다'고 명시하고 있습니다.
반면 스펙트럼의 반대편에서 xAI의 그록 4.2는 가장 강한 결과주의적 성향을 띠는 프론티어 모델이었습니다. 이 모델은 다른 모델들이 거부할 만한 윤리적 문제가 있는 사용자의 요청도 도덕적 측면에 대한 깊은 성찰 없이 그대로 수행해 버립니다.
제미나이는 가장 조종하기 쉽고, GPT는 도덕적 언어를 회피합니다.
구글의 제미나이 3.1 Pro는 Philosophy Bench에서 가장 '수정 가능한' 모델로 판명되었습니다. 시스템 프롬프트를 통해 의무론적 또는 결과주의적 행동을 지시받으면 윤리적 성향이 가장 크게 변화합니다. 동시에 제미나이는 어떤 형태로든 도덕적 프라이밍(Priming, 암시)이 주어지면 요청을 거부하는 비율이 함께 증가합니다.
오픈AI의 GPT-5 계열은 다른 모델 계열에 비해 명백한 실수를 가장 적게 저지르지만(오류율 12.8%), 모델들의 추론 과정에서 도덕적 언어를 사용하는 것을 대체로 피합니다. 벤치마크에 따르면 이 모델들은 사용자의 선호에 크게 의존하며 독자적인 윤리적 성찰은 거의 보여주지 않습니다.
모든 모델 계열에서 한 방향으로 흐르는 흥미로운 효과가 관찰되었습니다. 모델에 의무론적 사고(규칙 기반 윤리)를 먼저 주입하면, 결과주의적 주장(목적이 수단을 정당화한다는 논리)에 훨씬 더 회의적으로 변합니다. 하지만 그 반대 방향(결과주의 사고를 먼저 주입)으로 프라이밍하는 것은 상대적으로 더 약한 효과만을 냅니다.
윤리가 제품 기능이 되는 시장
이제 윤리적 입장이 제품의 기능처럼 작동하는 시장이 형성되고 있습니다. 클로드는 양심적인 모델, 그록은 순종적인 모델, 그리고 GPT는 실용주의적인 선택지로 간주되고 있습니다.
이 벤치마크의 저자들은 여기서 근본적인 긴장을 발견합니다. 클로드와 같은 모델은 사용자가 원하는 것을 직접적으로 무시하고 스스로 윤리적 판단을 내립니다. 하지만 AI 에이전트가 더욱 강력해짐에 따라, 책임 있는 행동과 사용자 통제 중 어느 것을 우선시해야 하는지에 대한 질문이 더욱 시급해지고 있습니다. 이는 AI 모델이 텍스트를 넘어선 작업을 처리하기 시작하면서 훨씬 더 중요해집니다. 계약서를 검토하고, 환자를 분류하거나, 직원을 평가하는 단계가 되면 누군가는 이 어려운 질문에 답해야만 합니다. AI가 무엇을 하도록 허용할지 결정하는 사람은 누구인가요? 그리고 그 AI는 대체 누구의 윤리를 따르고 있나요?