AI 기업 머코, 4만 명 음성 데이터 4TB 유출
2026년 4월, AI 데이터 라벨링 기업 머코(Mercor)에서 4만 명의 계약직 작업자 신분증 사진과 스튜디오급 음성 녹음 데이터 4TB가 유출되었습니다. 단순 녹음을 넘어 신원 정보와 결합된 이 데이터는 정교한 딥보이스(Deepfake) 제작과 금융 사기 등에 악용될 수 있어 매우 심각한 보안 위협으로 평가받고 있습니다. 이 사건으로 인해 이미 다수의 집단 소송이 제기되었으며, 피해자들은 자신의 생체 정보가 도용되지 않았는지 즉각 확인해야 합니다.
← ORAVYS 포렌식 인텔리전스 // 침해 분석
4TB의 음성 샘플이 4만 명의 AI 계약직 작업자에게서 방금 유출되었습니다. 귀하의 데이터가 무기화되고 있는지 확인하는 방법은 다음과 같습니다.
ORAVYS 포렌식 데스크 작성 2026년 4월 24일 게시 ~ 약 7분 소요
2026년 4월 4일, 협박 단체 Lapsus$는 자신들의 유출 사이트에 머코(Mercor)의 데이터를 게시했습니다. 유출된 덤프의 용량은 약 4TB로, 침해 사고 분석가들이 지난 2년간 경고해 왔던 페이로드, 즉 '음성 생체 정보'와 '동일 인물의 정부 발급 신분증'이 짝지어져 있는 것으로 보고되었습니다.
유출된 샘플 인덱스에 따르면, 이 아카이브는 AI 훈련을 위해 데이터 라벨링, 음성 녹음, 신원 확인 전화 등을 수행하기 위해 가입한 4만 명 이상의 계약직 작업자의 데이터를 포함하고 있습니다. 해당 게시물이 올라온 지 열흘 만에 다섯 건의 계약직 작업자 소송이 제기되었습니다. 원고들은 회사가 '훈련 데이터'라는 명목으로 음성을 수집하면서, 이것이 영구적인 생체 식별자로도 사용될 수 있다는 점을 명확히 밝히지 않았다고 주장합니다.
이러한 소송들도 중요하지만, 이미 자신의 음성이 유출된 사람들은 더욱 시급한 의문을 가지고 있습니다. 공격자는 누군가의 깨끗하게 녹음된 30초 분량의 음성과 운전면허증 스캔본을 가지고 대체 무엇을 할 수 있을까요?
왜 이번 유출 사고가 다른가? 지난 10년간 대부분의 음성 유출 사고는 두 가지 범주 중 하나에 속했습니다. 콜센터가 해킹당해 녹음 파일이 도난당했지만 이를 신원과 연결하기 어려웠거나, ID 브로커가 음성 파일 없이 운전면허증과 셀카만 유출시키는 경우였습니다. 머코는 이 두 가지를 결합해 놓았습니다.
계약직 작업자의 온보딩 과정은 여권이나 운전면허증 스캔, 웹캠 셀카 촬영, 조용한 방에서 대본을 읽는 좌식 음성 녹음 순으로 진행되었습니다. 데이터베이스의 한 행에 담긴 이 일련의 정보는 합성 음성(Voice cloning) 서비스가 입력값으로 필요로 하는 바로 그 데이터입니다. 월스트리트 저널(WSJ)은 2026년 2월 보도에서 현재 시중에 나와 있는 도구를 사용할 경우 고품질 음성 복제에 약 15초의 깨끗한 참조 오디오만 필요하다고 전했습니다. 머코의 녹음 데이터는 작업자당 평균 2~5분 분량의 스튜디오급 깨끗한 음성인 것으로 알려졌습니다. 이는 복제 가능 한계를 아득히 초과하는 수치입니다. 여기에 검증된 신분증이 짝지어지면, 공격자는 복제된 음성은 물론 이를 실제로 악용하는 데 필요한 신용 정보까지 함께 얻게 됩니다.
공격자가 도난당한 음성 데이터로 할 수 있는 일 아래의 위협 모델은 추측이 아닙니다. 각각은 이번 유출 사고 이전부터 이미 실제로 사용되었던 문서화된 기법들입니다.
은행 신원 확인 우회: 미국과 영국의 여러 음행은 여전히 음성 지문 매칭을 2단계 인증 중 하나로 사용하고 있습니다. 계좌 소유자가 인증 문구를 읽어주는 복제 음성은 음성 인증 게이트를 통과시키고, 나머지 지식 기반 질문(비밀번호 등) 역시 동일하게 유출된 데이터셋에서 쉽게 찾을 수 있습니다.
피해자 고용주 대상 보이스피싱(Vishing): 인사부나 재무부에 직원인 척 전화를 걸어 급여 이체 방향을 바꾸거나, 송금을 요청하거나, 워크스테이션 잠금을 해제합니다. 크렙스 온 시큐리티(Krebs on Security) 아카이브에는 2023년 이후 확인된 이러한 사례가 24건 이상 기록되어 있습니다.
홍콩 아루프(Arup) 템플릿 방식의 딥페이크 화상 회의: 2024년 아루프의 재무 직원은 다자간 딥페이크 화상 회의 후 약 2,500만 달러를 송금했습니다. 당시 범죄에 사용된 음성과 얼굴은 공개 영상을 바탕으로 제작되었습니다. 머코에서 유출된 데이터는 공개 영상보다 훨씬 더 좋은, 스튜디오 음성과 검증된 신분증입니다.
보험 사기: 핀드롭(Pindrop)에 따르면 2025년 한 해 동안 보험 콜센터를 겨냥한 합성 음성 공격이 전년 대비 475% 증가했습니다. 자동차, 생명, 상해 보험 청구는 전화로 처리되기 때문에 주요 표적이 됩니다.
가족을 표적으로 한 로맨스 및 조부모 사기: FBI 인터넷 범죄 불만 센터는 2026년 회계연도에 60세 이상 피해자들의 손실액이 23억 달러에 달한다고 기록했습니다. 가장 빠르게 증가하는 범주는 합성 음성을 사용해 위기에 처한 친척인 척 전화를 거는 긴급 사칭 전화였습니다.
자신의 음성이 악용되고 있는지 확인하는 방법 머코에 음성 샘플을 업로드한 적이 있거나, 2025년까지 운영된 다른 AI 훈련 브로커를 이용한 적이 있다면 귀하의 음성을 유출된 비밀번호와 같다고 생각하고 취급해야 합니다. 음성은 비밀번호처럼 변경(rotate)할 수는 없지만, 다음과 같은 방법으로 피해를 방지할 수 있습니다.