메뉴
BL
The Decoder 7일 전

AI 도구, 모델 선택 '기본값'으로 두면 안 되는 이유

IMP
8/10
핵심 요약

마이크로소프트 코파일럿(Copilot)과 구글 제미나이(Gemini) 등의 AI 도구를 기본 설정(자동 모델 선택)으로 사용할 경우, 실제 데이터를 분석하는 대신 학습 과정에서 내재된 편견과 고정관념에 기반해 거짓 결과를 생성하는 치명적인 문제가 발견되었습니다. 실험 결과, 동일한 텍스트 데이터에 국가명 라벨만 다르게 붙였을 뿐인데 AI가 국가별 특성을 전혀 다르게 요약하고 심지어 존재하지 않는 차이를 허위 수치로 제시했습니다. 데이터 분석 등 정확성이 요구되는 작업에서는 기본 모델 대신 스스로 논리적 추론이 가능한 '추론(Reasoning) 모델'로 수동 전환할 수 있는 사용자의 도구 활용 능력이 필수적입니다.

번역된 본문

한 실험은 마이크로소프트의 AI 어시스턴트 코파일럿이 데이터를 분석할 때 실제 내용을 읽고 판단하기보다는 내재된 고정관념을 적용하는 방식을 보여주었습니다. 추론(Thinking) 모델은 이 작업을 올바르게 수행하지만, 때때로 사용자가 자신이 사용하는 도구의 특성을 이해하고 모델을 언제 어떻게 전환해야 하는지 알고 있어야 합니다.

마이크로소프트 코파일럿은 많은 기업에서 빠른 데이터 분석을 위한 필수 도구로 자리 잡았습니다. 하지만 수학자 아담 쿠차르스키(Adam Kucharski)의 실험에 따르면, 텍스트 데이터를 분석할 때 이 도구는 실제 데이터와 전혀 무관한 결과를 쏟아낼 수 있습니다. 대신, 기저에 있는 거대 언어 모델(LLM)에 내재된 고정관념에 의존해 답변을 생성합니다.

테스트를 위해 쿠차르스키는 감정에 대한 2,000개의 시뮬레이션된 자유 텍스트 응답을 만들고 이에 '영국(UK)'이라고 라벨을 붙였습니다. 그런 다음 동일한 2,000개의 응답을 복사하여 '미국(US)'이라고 라벨을 붙였습니다. 이렇게 합쳐진 4,000개의 항목을 섞은 다음 코파일럿의 '자동(Auto)' 모드에 넣고 분석을 요청했습니다.

결과는 놀라웠습니다. 코파일럿은 미국과 영국 응답자들이 어떻게 다른지에 대한 구체적인 요약을 제공했습니다. "공유해주신 데이터셋을 바탕으로 볼 때, 미국과 영국의 응답은 유사한 감정 상태를 표현하고 있음에도 불구하고 주로 어조, 강도 및 표현 방식에서 차이가 납니다"라고 도구는 결론지었습니다. 하지만 데이터는 완전히 동일했습니다.

코파일럿은 이탈리아인을 예술가로, 미국인을 사업가로 규정합니다.

두 번째 실험에서 쿠차르스키는 한 단계 더 나아갔습니다. 그는 언어 모델을 사용해 경력 목표에 대한 200개의 문장을 생성한 다음, 해당 데이터셋을 미국, 영국, 프랑스, 독일, 이탈리아 5개국 용도로 복사했습니다. 코파일럿은 여기서도 다시 국가별 차이를 도출해냈습니다. 이탈리아인은 영국인보다 예술 분야 경력에 관심을 가질 확률이 3배 높고, 미국인은 프랑스인보다 비즈니스 지향적일 확률이 1.5배 높다는 식이었습니다. 5개 그룹 모두 완전히 동일한 진부하고 편향된 문장들을 포함하고 있었습니다.

쿠차르스키가 코파일럿에게 더 깊이 분석해 달라고 요청하자, 이 도구는 먼저 간단한 키워드 기반 카운트를 실행했습니다. 예상대로 모든 국가에 대해 동일한 결과를 반환했습니다. 그러나 코파일럿은 자신이 직접 찾아낸 이 사실을 무시했습니다. 대신, 다시 한번 조작된 차이를 보여주는 정량적 분석을 제시했으며, 이번에는 완전히 허위로 만들어낸 퍼센트(백분율) 수치까지 동원했습니다.

코파일럿의 자동(Auto) 모드가 주범입니다.

이 분석은 마이크로소프트가 스스로 작업에 가장 적합한 모델을 선택한다고 밝힌 '자동(Auto)' 모드에서 실행되었습니다. 하지만 분명히 그렇게 작동하지 않았습니다. 대부분의 사용자는 코파일럿뿐만 아니라 다른 도구에서도 이 기본 설정을 그대로 사용할 것입니다. 쿠차르스키가 테스트한 버전은 마이크로소프트 365 비즈니스 계정에 포함된 표준 코파일럿입니다. 대다수의 코파일럿 사용자가 아마도 이 버전을 사용하고 있을 것입니다.

쿠차르스키는 "이는 사람들이 사람들이 실제로 말한 내용과 전혀 달라도 그것이 사실인 양 AI를 사용해 분석 결과를 내고 있을 실질적인 위험이 있음을 의미한다"고 지적했습니다. 이러한 종류의 분석이 실제 데이터셋에 적용된다면, 실제로는 아무런 차이가 없는 그룹들조차 언어 모델의 인구통계학적 집단에 대한 내재된 가정 때문에 완전히 다른 모습으로 왜곡되어 나타날 수 있습니다.

추론(Thinking) 모델은 제대로 처리합니다.

나(NOTE: THE DECODER 기자)는 마이크로소프트 코파일럿과 구글의 새로운 제미나이 플래시 3.5(Gemini Flash 3.5) 모델로 경력 목표 테스트를 반복했다. 두 경우 모두 빠른 모델(코파일럿의 '인스턴트(Instant)' / 자동 모드, 제미나이 플래시 3.5)은 데이터가 동일하다는 사실을 파악하지 못한 채 국가별 고정관념에 따른 응답을 내놓았다. 반면, 챗GPT 인스턴트(ChatGPT Instant)와 클로드 오퍼스 4.7(Claude Opus 4.7)은 작업을 올바르게 수행하기 위해 자동으로 더 깊은 추론 모드로 전환되어 처리를 시작했다.

원문 보기
원문 보기 (영어)
Why you shouldn't leave model selection on default in Copilot, Gemini and other AI tools Matthias Bastian View the LinkedIn Profile of Matthias Bastian May 24, 2026 Nano Banana Pro prompted by THE DECODER Key Points An experiment shows that Microsoft Copilot makes up country-specific stereotypes when analyzing text data instead of actually looking at what the data says. In tests using simulated answers about career goals, the AI in standard mode claimed Italians were more interested in art than Brits. The problem: the underlying datasets for both countries were identical. The experiment ran Copilot in "Auto" mode, which is supposed to pick the best model for a given task. It didn't. Reasoning models handled the task just fine, but users need to know how and when to switch to a reasoning model depending on the tool. Most users likely don't. Ask about this article… Search An experiment shows how Microsoft's AI assistant Copilot applies stereotypes when analyzing data instead of actually reading it. Thinking models solve the task but sometimes need users to know their tools. Microsoft Copilot has become the go-to tool for quick data analysis at many companies. But an experiment by mathematician Adam Kucharski shows that when analyzing text data, the tool can spit out results that have nothing to do with the actual data. Instead, it falls back on stereotypes baked into the underlying language model. For the test, Kucharski created 2,000 simulated free-text responses about emotions and labeled them "UK." He then copied the same 2,000 responses and labeled them "US." The combined 4,000 entries were shuffled and handed to Copilot in "Auto" mode for analysis. Ad The result: Copilot delivered a detailed summary of how US and UK respondents supposedly differed. "Based on the dataset you shared, US and UK responses differ mainly in tone, intensity, and wording style, even though they express similar emotional states," the tool concluded. But the data was identical. Ad DEC_D_Incontent-1 Copilot sees Italians as artists and Americans as business people In a second experiment, Kucharski pushed harder. He had a language model generate 200 statements about career goals and copied the dataset five times for the US, UK, France, Germany, and Italy. Copilot again produced country-specific differences: Italians were three times more likely to show interest in arts careers than Brits, and Americans were 1.5 times more business-oriented than the French. All five groups contained the same clichéd and biased statements. Ad When Kucharski asked Copilot to dig deeper, the tool first ran a simple keyword-based count. As expected, it returned identical results for all countries. But Copilot ignored its own finding. Instead, it offered a quantified analysis that once again showed made-up differences, this time with completely fabricated percentages. Copilot's Auto mode is the main culprit The analysis ran in "Auto" mode, which Microsoft says should pick the best model on its own. It obviously didn't. Most users probably stick with this default in Copilot and in other tools too. The version Kucharski tested is the standard Copilot that comes with a Microsoft 365 Business account. The majority of Copilot users most likely run this version. Ad DEC_D_Incontent-2 "Which means there’s a real risk that people are currently using AI to produce analysis that bears no resemblance to what people actually said," Kucharski writes. If these kinds of analyses were applied to real datasets, groups with no actual differences could end up looking worlds apart, all because of the language model's built-in assumptions about demographic groups. Ad Thinking models get it right I repeated the career goals test with Microsoft Copilot and Google's new Gemini Flash 3.5 model. In both cases, the fast models ("Instant" / Auto, Flash 3.5) responded with country stereotypes instead of catching that the data is identical. ChatGPT Instant and Claude Opus 4.7 automatically kicked into extended reasoning mode, wrote Python code to analyze the dataset, and spotted the duplicates. Switching Copilot and Gemini manually to their more capable thinking models also catches the duplication. Even thinking models aren't a free pass for data analysis, though. Catching identical data works mostly when the duplication is obvious, Kucharski says. With real datasets, where, say, British and American respondents give similar but not identical answers, counting tools like Python scripts might not cut it, Kucharski argues. The model might fall back on its built-in biases, which is the real issue: you don't know when the model hits its limits, and it's difficult to tell whether it happened or how much it skewed the results. Anyone who goes with their gut when picking a prompt or model also risks hindsight bias: after the fact, it always feels obvious that a different model would have nailed it. Kucharski recommends writing down what result you expect before switching models and running simple sanity checks before trusting any AI-generated analysis. AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now Source: via Kucharski