AI 도구, 모델 선택 '기본값'으로 두면 안 되는 이유
마이크로소프트 코파일럿(Copilot)과 구글 제미나이(Gemini) 등의 AI 도구를 기본 설정(자동 모델 선택)으로 사용할 경우, 실제 데이터를 분석하는 대신 학습 과정에서 내재된 편견과 고정관념에 기반해 거짓 결과를 생성하는 치명적인 문제가 발견되었습니다. 실험 결과, 동일한 텍스트 데이터에 국가명 라벨만 다르게 붙였을 뿐인데 AI가 국가별 특성을 전혀 다르게 요약하고 심지어 존재하지 않는 차이를 허위 수치로 제시했습니다. 데이터 분석 등 정확성이 요구되는 작업에서는 기본 모델 대신 스스로 논리적 추론이 가능한 '추론(Reasoning) 모델'로 수동 전환할 수 있는 사용자의 도구 활용 능력이 필수적입니다.
한 실험은 마이크로소프트의 AI 어시스턴트 코파일럿이 데이터를 분석할 때 실제 내용을 읽고 판단하기보다는 내재된 고정관념을 적용하는 방식을 보여주었습니다. 추론(Thinking) 모델은 이 작업을 올바르게 수행하지만, 때때로 사용자가 자신이 사용하는 도구의 특성을 이해하고 모델을 언제 어떻게 전환해야 하는지 알고 있어야 합니다.
마이크로소프트 코파일럿은 많은 기업에서 빠른 데이터 분석을 위한 필수 도구로 자리 잡았습니다. 하지만 수학자 아담 쿠차르스키(Adam Kucharski)의 실험에 따르면, 텍스트 데이터를 분석할 때 이 도구는 실제 데이터와 전혀 무관한 결과를 쏟아낼 수 있습니다. 대신, 기저에 있는 거대 언어 모델(LLM)에 내재된 고정관념에 의존해 답변을 생성합니다.
테스트를 위해 쿠차르스키는 감정에 대한 2,000개의 시뮬레이션된 자유 텍스트 응답을 만들고 이에 '영국(UK)'이라고 라벨을 붙였습니다. 그런 다음 동일한 2,000개의 응답을 복사하여 '미국(US)'이라고 라벨을 붙였습니다. 이렇게 합쳐진 4,000개의 항목을 섞은 다음 코파일럿의 '자동(Auto)' 모드에 넣고 분석을 요청했습니다.
결과는 놀라웠습니다. 코파일럿은 미국과 영국 응답자들이 어떻게 다른지에 대한 구체적인 요약을 제공했습니다. "공유해주신 데이터셋을 바탕으로 볼 때, 미국과 영국의 응답은 유사한 감정 상태를 표현하고 있음에도 불구하고 주로 어조, 강도 및 표현 방식에서 차이가 납니다"라고 도구는 결론지었습니다. 하지만 데이터는 완전히 동일했습니다.
코파일럿은 이탈리아인을 예술가로, 미국인을 사업가로 규정합니다.
두 번째 실험에서 쿠차르스키는 한 단계 더 나아갔습니다. 그는 언어 모델을 사용해 경력 목표에 대한 200개의 문장을 생성한 다음, 해당 데이터셋을 미국, 영국, 프랑스, 독일, 이탈리아 5개국 용도로 복사했습니다. 코파일럿은 여기서도 다시 국가별 차이를 도출해냈습니다. 이탈리아인은 영국인보다 예술 분야 경력에 관심을 가질 확률이 3배 높고, 미국인은 프랑스인보다 비즈니스 지향적일 확률이 1.5배 높다는 식이었습니다. 5개 그룹 모두 완전히 동일한 진부하고 편향된 문장들을 포함하고 있었습니다.
쿠차르스키가 코파일럿에게 더 깊이 분석해 달라고 요청하자, 이 도구는 먼저 간단한 키워드 기반 카운트를 실행했습니다. 예상대로 모든 국가에 대해 동일한 결과를 반환했습니다. 그러나 코파일럿은 자신이 직접 찾아낸 이 사실을 무시했습니다. 대신, 다시 한번 조작된 차이를 보여주는 정량적 분석을 제시했으며, 이번에는 완전히 허위로 만들어낸 퍼센트(백분율) 수치까지 동원했습니다.
코파일럿의 자동(Auto) 모드가 주범입니다.
이 분석은 마이크로소프트가 스스로 작업에 가장 적합한 모델을 선택한다고 밝힌 '자동(Auto)' 모드에서 실행되었습니다. 하지만 분명히 그렇게 작동하지 않았습니다. 대부분의 사용자는 코파일럿뿐만 아니라 다른 도구에서도 이 기본 설정을 그대로 사용할 것입니다. 쿠차르스키가 테스트한 버전은 마이크로소프트 365 비즈니스 계정에 포함된 표준 코파일럿입니다. 대다수의 코파일럿 사용자가 아마도 이 버전을 사용하고 있을 것입니다.
쿠차르스키는 "이는 사람들이 사람들이 실제로 말한 내용과 전혀 달라도 그것이 사실인 양 AI를 사용해 분석 결과를 내고 있을 실질적인 위험이 있음을 의미한다"고 지적했습니다. 이러한 종류의 분석이 실제 데이터셋에 적용된다면, 실제로는 아무런 차이가 없는 그룹들조차 언어 모델의 인구통계학적 집단에 대한 내재된 가정 때문에 완전히 다른 모습으로 왜곡되어 나타날 수 있습니다.
추론(Thinking) 모델은 제대로 처리합니다.
나(NOTE: THE DECODER 기자)는 마이크로소프트 코파일럿과 구글의 새로운 제미나이 플래시 3.5(Gemini Flash 3.5) 모델로 경력 목표 테스트를 반복했다. 두 경우 모두 빠른 모델(코파일럿의 '인스턴트(Instant)' / 자동 모드, 제미나이 플래시 3.5)은 데이터가 동일하다는 사실을 파악하지 못한 채 국가별 고정관념에 따른 응답을 내놓았다. 반면, 챗GPT 인스턴트(ChatGPT Instant)와 클로드 오퍼스 4.7(Claude Opus 4.7)은 작업을 올바르게 수행하기 위해 자동으로 더 깊은 추론 모드로 전환되어 처리를 시작했다.