메뉴
HN
Hacker News 34일 전

AI 기업 머코, 4만 명 음성 데이터 4TB 유출

IMP
9/10
핵심 요약

2026년 4월, AI 데이터 라벨링 기업 머코(Mercor)에서 4만 명의 계약직 작업자 신분증 사진과 스튜디오급 음성 녹음 데이터 4TB가 유출되었습니다. 단순 녹음을 넘어 신원 정보와 결합된 이 데이터는 정교한 딥보이스(Deepfake) 제작과 금융 사기 등에 악용될 수 있어 매우 심각한 보안 위협으로 평가받고 있습니다. 이 사건으로 인해 이미 다수의 집단 소송이 제기되었으며, 피해자들은 자신의 생체 정보가 도용되지 않았는지 즉각 확인해야 합니다.

번역된 본문

← ORAVYS 포렌식 인텔리전스 // 침해 분석

4TB의 음성 샘플이 4만 명의 AI 계약직 작업자에게서 방금 유출되었습니다. 귀하의 데이터가 무기화되고 있는지 확인하는 방법은 다음과 같습니다.

ORAVYS 포렌식 데스크 작성 2026년 4월 24일 게시 ~ 약 7분 소요

2026년 4월 4일, 협박 단체 Lapsus$는 자신들의 유출 사이트에 머코(Mercor)의 데이터를 게시했습니다. 유출된 덤프의 용량은 약 4TB로, 침해 사고 분석가들이 지난 2년간 경고해 왔던 페이로드, 즉 '음성 생체 정보'와 '동일 인물의 정부 발급 신분증'이 짝지어져 있는 것으로 보고되었습니다.

유출된 샘플 인덱스에 따르면, 이 아카이브는 AI 훈련을 위해 데이터 라벨링, 음성 녹음, 신원 확인 전화 등을 수행하기 위해 가입한 4만 명 이상의 계약직 작업자의 데이터를 포함하고 있습니다. 해당 게시물이 올라온 지 열흘 만에 다섯 건의 계약직 작업자 소송이 제기되었습니다. 원고들은 회사가 '훈련 데이터'라는 명목으로 음성을 수집하면서, 이것이 영구적인 생체 식별자로도 사용될 수 있다는 점을 명확히 밝히지 않았다고 주장합니다.

이러한 소송들도 중요하지만, 이미 자신의 음성이 유출된 사람들은 더욱 시급한 의문을 가지고 있습니다. 공격자는 누군가의 깨끗하게 녹음된 30초 분량의 음성과 운전면허증 스캔본을 가지고 대체 무엇을 할 수 있을까요?

왜 이번 유출 사고가 다른가? 지난 10년간 대부분의 음성 유출 사고는 두 가지 범주 중 하나에 속했습니다. 콜센터가 해킹당해 녹음 파일이 도난당했지만 이를 신원과 연결하기 어려웠거나, ID 브로커가 음성 파일 없이 운전면허증과 셀카만 유출시키는 경우였습니다. 머코는 이 두 가지를 결합해 놓았습니다.

계약직 작업자의 온보딩 과정은 여권이나 운전면허증 스캔, 웹캠 셀카 촬영, 조용한 방에서 대본을 읽는 좌식 음성 녹음 순으로 진행되었습니다. 데이터베이스의 한 행에 담긴 이 일련의 정보는 합성 음성(Voice cloning) 서비스가 입력값으로 필요로 하는 바로 그 데이터입니다. 월스트리트 저널(WSJ)은 2026년 2월 보도에서 현재 시중에 나와 있는 도구를 사용할 경우 고품질 음성 복제에 약 15초의 깨끗한 참조 오디오만 필요하다고 전했습니다. 머코의 녹음 데이터는 작업자당 평균 2~5분 분량의 스튜디오급 깨끗한 음성인 것으로 알려졌습니다. 이는 복제 가능 한계를 아득히 초과하는 수치입니다. 여기에 검증된 신분증이 짝지어지면, 공격자는 복제된 음성은 물론 이를 실제로 악용하는 데 필요한 신용 정보까지 함께 얻게 됩니다.

공격자가 도난당한 음성 데이터로 할 수 있는 일 아래의 위협 모델은 추측이 아닙니다. 각각은 이번 유출 사고 이전부터 이미 실제로 사용되었던 문서화된 기법들입니다.

은행 신원 확인 우회: 미국과 영국의 여러 음행은 여전히 음성 지문 매칭을 2단계 인증 중 하나로 사용하고 있습니다. 계좌 소유자가 인증 문구를 읽어주는 복제 음성은 음성 인증 게이트를 통과시키고, 나머지 지식 기반 질문(비밀번호 등) 역시 동일하게 유출된 데이터셋에서 쉽게 찾을 수 있습니다.

피해자 고용주 대상 보이스피싱(Vishing): 인사부나 재무부에 직원인 척 전화를 걸어 급여 이체 방향을 바꾸거나, 송금을 요청하거나, 워크스테이션 잠금을 해제합니다. 크렙스 온 시큐리티(Krebs on Security) 아카이브에는 2023년 이후 확인된 이러한 사례가 24건 이상 기록되어 있습니다.

홍콩 아루프(Arup) 템플릿 방식의 딥페이크 화상 회의: 2024년 아루프의 재무 직원은 다자간 딥페이크 화상 회의 후 약 2,500만 달러를 송금했습니다. 당시 범죄에 사용된 음성과 얼굴은 공개 영상을 바탕으로 제작되었습니다. 머코에서 유출된 데이터는 공개 영상보다 훨씬 더 좋은, 스튜디오 음성과 검증된 신분증입니다.

보험 사기: 핀드롭(Pindrop)에 따르면 2025년 한 해 동안 보험 콜센터를 겨냥한 합성 음성 공격이 전년 대비 475% 증가했습니다. 자동차, 생명, 상해 보험 청구는 전화로 처리되기 때문에 주요 표적이 됩니다.

가족을 표적으로 한 로맨스 및 조부모 사기: FBI 인터넷 범죄 불만 센터는 2026년 회계연도에 60세 이상 피해자들의 손실액이 23억 달러에 달한다고 기록했습니다. 가장 빠르게 증가하는 범주는 합성 음성을 사용해 위기에 처한 친척인 척 전화를 거는 긴급 사칭 전화였습니다.

자신의 음성이 악용되고 있는지 확인하는 방법 머코에 음성 샘플을 업로드한 적이 있거나, 2025년까지 운영된 다른 AI 훈련 브로커를 이용한 적이 있다면 귀하의 음성을 유출된 비밀번호와 같다고 생각하고 취급해야 합니다. 음성은 비밀번호처럼 변경(rotate)할 수는 없지만, 다음과 같은 방법으로 피해를 방지할 수 있습니다.

원문 보기
원문 보기 (영어)
← ORAVYS Forensic intelligence // Breach analysis 4TB of voice samples were just stolen from 40,000 AI contractors. Here is how to verify if yours is being weaponized. By the ORAVYS forensic desk Published April 24, 2026 ~7 min read On April 4, 2026, the extortion group Lapsus$ posted Mercor on its leak site. The dump is reported at roughly four terabytes and bundles a payload that breach analysts have been warning about for two years: voice biometrics paired with the same person's government-issued identity document. According to the leaked sample index, the archive covers more than 40,000 contractors who signed up to label data, record reading passages, and run through verification calls for AI training. Five contractor lawsuits were filed within ten days of the post. The plaintiffs argue that the company collected voice prints under a "training data" framing without making clear they were also a permanent biometric identifier. The lawsuits matter, but the people whose voices were already exfiltrated have a more immediate question. What does an attacker actually do with thirty seconds of someone's clean read voice plus a scan of their driver's license? Why this breach is different Most voice leaks in the last decade fell into one of two buckets. Either a call center got popped and recordings were stolen with no easy way to map them back to identity. Or an ID-document broker leaked driver's licenses and selfies without any audio attached. Mercor merged both columns. The contractor onboarding pipeline asked for a passport or driver's license scan, then a webcam selfie, then a sit-down voice recording reading scripted prompts in a quiet room. That sequence, in one row of one database, is exactly what a synthetic voice cloning service needs as input. The Wall Street Journal reported in February 2026 that high-quality voice cloning now requires roughly fifteen seconds of clean reference audio for tools available off the shelf. The Mercor recordings are reported to average two to five minutes of studio-clean speech per contractor. That is far past the threshold. Pair it with a verified ID document and the attacker has both the clone and the credential needed to put the clone to work. What attackers can now do with stolen voice data The threat models below are not speculative. Each is a documented technique already used in the wild before this breach. Bank verification bypass. Several US and UK banks still treat voiceprint matching as one of two factors. A clone of the account holder reading a challenge phrase clears the audio gate, leaving only a knowledge question that often comes from the same leaked dataset. Vishing the victim's employer. Calling HR or finance pretending to be the employee to redirect payroll, request a wire, or unlock a workstation. The Krebs on Security archive lists more than two dozen confirmed cases since 2023. Deepfake video calls in the Hong Kong Arup template. In 2024 a finance worker at Arup wired roughly 25 million dollars after a multi-person deepfake video call. The voices and faces had been built from public footage. Mercor leaked something better than public footage: studio audio plus a verified ID. Insurance claim fraud. Pindrop reported a 475 percent year-over-year increase in synthetic voice attacks against insurance call centers across 2025. Auto, life, and disability claims are the prime targets because they are settled by phone. Romance and grandparent scams targeting family members. The FBI Internet Crime Complaint Center logged 2.3 billion dollars in losses for victims aged 60 and over in calendar year 2026. The single fastest-growing category was emergency impersonation calls, where the synthetic voice claims to be a relative in trouble. How to check if your voice is being misused If you ever uploaded a voice sample to Mercor, or to any of the other AI training brokers that operated through 2025, treat your voice the way you would treat a leaked password. You cannot rotate it, but you can change what it unlocks. Here is the short list. Self-audit your public audio footprint. Search YouTube, podcast directories, and old Zoom recordings for samples of your voice that are publicly indexable. Take down what you can. The less reference audio is in the open, the less robust an attacker's clone. Set up a verbal codeword with family and finance contacts. Pick a phrase that has never been spoken on a recording and never typed in chat. Brief the people who handle money on your behalf. If a call ever asks for a transfer, the codeword is mandatory. Rotate where voiceprints are still in use. Google Voice Match, Amazon Alexa Voice ID, Apple personal voice, and any banking voiceprint enrollment can be deleted and replaced. Do that now, ideally from a new recording in a different acoustic environment than the leaked sample. Tell your bank to disable voiceprint as a verification factor. Ask in writing for multi-factor authentication that combines an app token or hardware key with a knowledge factor. Many banks let you opt out of voice as a primary factor; few of them advertise it. Run suspicious recordings through a forensic scanner. If you receive an audio file or voicemail that claims to be from someone you know and asks for money, access, or urgency, run it through a deepfake detector before acting. ORAVYS offers a free check for the first three samples submitted by breach victims (see the offer below). The forensic checklist that experts use When a sample lands on a forensic analyst's desk, the following artifacts are the first pass. Each is something a synthetic voice tends to get slightly wrong, even when the perceptual quality is high. Codec mismatch. The audio claims to come from a phone call but the spectral signature does not match any known telephony codec. Breath patterns. Real speakers inhale at predictable points dictated by phrase length and lung capacity. Synthetic voices often skip breaths or insert them at the wrong syllabic boundary. Micro-jitter. Natural vocal folds vibrate with small irregularities. Generated audio is often too clean at the millisecond level. Formant trajectory. Vowel transitions follow physical articulator paths in a real mouth. Cloned voices sometimes take impossible shortcuts between formants. Room acoustics inconsistency. The reverb signature should be identical from the start of the file to the end. Generated audio is often dry while the splice context is reverberant. Prosody flatness. Synthetic speech often has narrower pitch and energy variance than the same speaker would have in real conditions. Speech rate stability. Real humans speed up and slow down with content. Generated speech tends to hold a metronomic rate across long passages. What ORAVYS does specifically More than 3,000 forensic engines run in parallel on every submitted sample, covering signal, prosody, articulation, codec, and provenance domains. AudioSeal watermark detection flags files generated by major commercial voice models when the watermark is preserved, giving a deterministic positive when present. An anti-spoofing module trained against the ASVspoof public benchmarks scores the likelihood that a sample was synthesized rather than recorded. Biometric processing is RGPD compliant. Audio is never used to train commercial models without explicit consent and is purged on a defined retention schedule. Free verification for Mercor breach victims If you were a Mercor contractor and you believe your voice may already be in circulation, ORAVYS will analyze the first three suspect samples free of charge. You will receive a forensic report covering watermark detection, anti-spoofing score, and the artifact checklist above. No card required, no quota gate. Run a forensic check → Sources cited in this article: Lapsus$ leak site index (April 2026), Wall Street Journal voice cloning report (February 2026), Pindrop Voice Intelligence Report 2025, FBI IC3 Elder Fraud Report 2026, Krebs on Security archives. Lawsuit r