AI 기반 장 건강 분석 앱(PoopCheck) 개발자가 2만 5천명의 사용자로부터 수집한 15만 장 이상의 대변 사진 데이터베이스를 머신러닝 학습용으로 몰래 판매하려 한 사실이 적발되었습니다. 이 앱은 스토어와 웹사이트에서 '데이터 수집 없음' 및 '철저한 개인정보 보호'를 약속했지만, 실제 서비스 약관에는 데이터를 활용할 수 있다고 명시하여 이용자를 기만했습니다. 이 사건은 민감한 의료 및 생체 데이터가 AI 학습용으로 무단으로 수집·거래될 수 있는 심각한 개인정보 침해 및 보안적 맹점을 시사합니다.
번역된 본문
몇 주 전, 저는 대규모 데이터셋을 거래하는 레딧(Reddit)의 r/DHExchange 서브레딧에서 황당한 게시물을 발견했습니다. "가치 있는 무언가의 대규모 데이터베이스를 모았는데, 여러분이 예상하는 것과는 다릅니다... 15만 장의 대변 사진입니다." Ill_Car_7351이라는 사용자가 올린 이 게시물은 글자 그대로 몇 년 전 그가 출시한 AI 대변 분석 앱에서 수집한 대변 사진 데이터베이스를 광고하는 것이었습니다. 기본적으로 25,000명이 자신의 대변 사진을 찍어 그의 앱에 업로드했던 것입니다. 그는 이 이미지들을 수집, 분석, 분류해 왔으며 이제 이에 대한 접근권을 팔고 싶어 했습니다. "대략 25,000명의 다른 사람들로부터 얻은 15만 장 이상의 라벨링 및 분류된 💩 이미지가 있습니다. 농담은 그만두고, 이것이 많은 가치가 있다는 것을 알고 있습니다(구하기 힘들고 머신러닝(Machine Learning, ML) 학습, 암 연구 등에 유용함). 하지만 이를 어떻게 처리해야 할지 확신이 서지 않습니다. 커다란 똥덩어리..아니 빛나는 동전 더미 위에 앉아있지만 누가 이것을 원하는지 찾을 수 없는 기분입니다." 작성자는 "이 이미지들은 매우 희귀하다"고 덧붙이며, 이를 얼마에 팔 수 있을지 알아보고 있었습니다. 댓글들은 대부분 경악하는 사람들의 반응이었습니다. "5살 때 선생님이 글읽기를 가르쳐주셨는데, 그런 일이 있었다는게 후회스럽네요", "도대체 뭐야 십장생", "다른 사람의 게시물은 어떻게 삭제하죠" 등의 댓글이 달렸습니다. 저는 작성자에게 메시지를 보내 데이터베이스를 구매하는 데 관심이 있다고 말했습니다. 그것이 제가 '사물인터넷 쓰레기(Internet of Shit)'의 세계로, 그리고 나아가 AI 학습을 위해 앱에서 수집된 매우 민감한 사용자 데이터가 지하에서 불법 거래되는 불쾌한 세계로 뛰어드는 여정의 시작이었습니다.
이 대변 데이터베이스는 PoopCheck라는 앱에서 나왔습니다. Soft All Things라는 회사가 만든 이 앱은 AI를 사용하여 대변 이미지를 분석함으로써 '매일의 장건강 점수'를 제공한다고 주장합니다. "저희 AI는 브리스톨 대변 척도(Bristol Stool Scale)와 고급 패턴 인식을 사용하여 대변을 분석합니다. 변의 농도, 색상, 모양 및 이들이 소화 건강에 미치는 의미에 대한 통찰력을 얻으세요"라고 앱은 광고합니다. 브리스톨 대변 척도는 대변을 '작은 조약돌 같은 단단한 덩어리'에서 '고체 조각이 없는 액체 상태'에 이르기까지 7가지 유형 중 하나로 분류합니다. 이 글을 쓰는 시점에서 이 앱은 151,317개의 '공유된 대변'으로 이루어진 '커뮤니티'와 '리더보드' 기능도 제공하여, 사람들이 다른 사용자의 평가를 받기 위해 자신의 대변 사진을 공유하고 참여에 대한 포인트를 얻을 수 있습니다. 저는 커뮤니티에 올라온 게시물들을 보기 조금 버거웠는데, 제목이 "반죽같아요", "걱정돼요", "최근 3주째 이런 증상이 있어요"와 같았습니다. 사진이 자동으로 커뮤니티에 공유되는 것은 아니며, 사진을 찍을 때 공유할지 묻는 메시지가 표시됩니다. 앱 내의 '인기' 게시물에는 다른 커뮤니티 회원들이 기생충이나 대장암에 걸렸을지 추측하는 내용이 포함되어 있으며, 몇몇 게시물의 댓글에서는 사람들이 원작성자에게 이버멕틴을 추천하는 것을 보았습니다.
사용자는 다른 사용자와 자신의 대변을 공유할 수 있는 옵션이 있지만, 앱에 업로드된 데이터가 분석 및 주석이 달리고 다른 대변 사진들과 함께 패키징되어 AI 기업에 판매될 상업용 데이터베이스로 만들어진다는 사실에 대해서는 앱이 모호한 메시지를 전달하고 있습니다. PoopCheck의 앱 스토어 페이지에는 "개발자는 이 앱에서 어떠한 데이터도 수집하지 않습니다"라고 적혀 있습니다. 앱 스토어 다운로드 페이지의 개인정보 보호정책 링크는 데이터를 판매하거나 공유한다는 내용을 전혀 언급하지 않으며, "건강 데이터는 전송 중 및 보관 시 암호화됩니다. 사진은 안전하게 처리됩니다. 데이터 보호를 위해 업계 표준 보안 조치를 구현합니다."라고 말합니다. PoopCheck 웹사이트의 소개 페이지는 "개인정보 보호 우선(Privacy First)"이라고 명시하고 있습니다. 그리고 "건강 데이터는 민감합니다. 그렇기 때문에 개인정보 보호는 하나의 기능이 아니라 저희의 기반입니다. 사진은 암호화됩니다. 언제든지 모든 것을 삭제할 수 있습니다. 우리는 우리가 원하는 방식대로 우리 자신의 건강 앱이 만들어지길 바라는 마음으로 PoopCheck를 구축했습니다."라고 설명합니다. FAQ 또한 "귀하의 개인정보 보호는 저희의 최우선 순위입니다"라고 강조합니다. 이는 사용자가 실제로 앱을 열고 계정을 만들 때 동의하게 되는 '서비스 약관' 및 '이용 약관'과는 완전히 다릅니다. 해당 서비스...
A few weeks ago, I came across a wild post on Reddit’s r/DHExchange, a subreddit for trading large datasets : “I hoarded a large database of something valuable, just not what’s [sic] you expect…150k stools images.” The post, made by a user called Ill_Car_7351, was advertising exactly what it sounds like: A database of poop images, collected from an AI poop analyzing app that he had launched several years ago. Basically, 25,000 people had been taking images of their poop and uploading them to his app. He’d been collecting, analyzing, and annotating these images and now wanted to sell access to them: “I’ve got 150k+ labeled and classified images of 💩 from roughly 25K different people. Jokes aside, I know there’s a lot of value in it (hard to obtain, useful for ML [machine learning] training, cancer studies etc) but not sure on how to move about it. Feels like I’m sitting on a pile of shi..ny coins but can’t find who wants them.” The poster added that “the images are extremely rare,” and that he was trying to figure out how much money he could sell them for. The comments were from people who were mostly horrified: “When I was 5 the teacher taught me how to read. I now regret that happened,” one read. “What in the fuck,” another read. “How to delete someone else’s post,” a third said. I messaged the poster and told him I was interested in obtaining the database. Thus began my journey into the Internet of Shit and, by extension, the unpleasant world of the underground sale of highly sensitive, app-collected user data for AI training. The poop database comes from an app called PoopCheck, an app made by a company called Soft All Things that purports to use AI to analyze images of one’s stool in order to give you a “daily gut health score.” “Our AI analyzes your poop using the Bristol Stool Scale and advanced pattern recognition. Get insights on consistency, color, shape, and what they mean for your digestive health,” the app advertises. The Bristol Stool Scale classifies stools into one of seven types ranging from “separate hard lumps, like little pebbles” to “watery with no solid pieces.” The app also features a “community,” of 151,317 “shared stools” at the time of this writing and a “leaderboard,” where people can share images of their poop for commentary from other users and earn points for participating. I found the posts in the community a bit hard to stomach, with titles “like play dough,” “Concerned,” and “Dealing with this on and off for the past 3 weeks.” Pictures are not automatically shared to the community; when you take a photo it asks if you want to share it. “Popular” posts on the app include people speculating as to whether their fellow community members have parasites or colon cancer; in the comments section of a few posts I saw people recommending ivermectin to the original poster. Though users have the option to share their poops with other users, the app provides mixed messages about the fact that the data uploaded to the app will be analyzed, annotated, and packaged with other poops into a commercial database to be sold to AI companies. On the App Store page for PoopCheck, it says “The developer does not collect any data from this app.” The link to the privacy policy from within the App Store download page does not mention anything about selling or sharing the data and says “your health data is encrypted in transit and at rest. Photos are processed securely. We implement industry-standard security measures to protect your data.” The PoopCheck website’s About page states “Privacy First.” And “Health data is sensitive. That’s why privacy isn’t a feature, it’s our foundation. Your photos are encrypted. You can delete everything at any time. We built PoopCheck the way we’d want our own health apps built.” The FAQ also notes “your privacy is our priority.” This is completely different from the “Service Agreement” and “Terms and Conditions” people agree to when they actually open the app and make an account. The Service Agreement states that “by uploading stool images or any health-related data to the App, you grant Soft All Things LLC a worldwide, irrevocable, perpetual, unconditional, royalty-free, fully-paid, transferable, sub licensable license to use, reproduce, modify, adapt, distribute, sell, license, and create derivative works from such content for any lawful purpose, including but not limited to research, commercial exploitation, product development, and third party licensing. You acknowledge that your images and data may be used to create, train, improve, and commercialize AI technologies and machine learning models, and that such models and any outputs derived from your data may be licensed or sold to third parties, including medical organizations, research institutions, and commercial partners.” It adds that “your data may be irreversibly incorporated into AI models and aggregated datasets. Deletion of your account will remove your personal profile data but does not require the removal of anonymized, aggregated, or derivative data already processed or incorporated into AI models.” Under a section called “Sharing of Information,” it adds that the company reserves the right to share or sell the data “for any business purpose,” including “AI and Data Licensing.” On Reddit, I messaged Ill_Car_7351 and said “Hi - am interested in this database you posted about. Can you share any more info about what you're looking for / details about the app where it was collected? also any chance there's like, a sample of what the data looks like etc?” They responded quickly and said “Hey! The db was gathered by real users, we had 25k users over the last couple years, since we launched the app. It’s called PoopCheck btw if you wanna see it. Let’s maybe talk via email? I’ll be happy to share a sample of the data if that interests you.” I sent an email to someone named “Marco” at Soft All Things, who identified himself as one of the founders of PoopCheck. I said I had reached out on Reddit and was interested in a sample of the data. I used my real email address and real name. “We can surely send you a sampling of the dataset, would a Google Drive link containing an image folder and JSON data work? We can also figure out other ways if you prefer,” Marco said. “In terms of the actual dataset you need, what would be the size of it for your needs? And what would you be using it for? Just so we can make sure it’s actually a good fit for your use case.” I told Marco that I wanted 10,000 pieces of data and said I would use it for AI training. I asked him for pricing and what type of data was included. Marco responded: “You'll find a folder with images and JSON metadata covering the key fields we capture per entry. Let us know if you have any questions about it. To give you a better idea of the dataset and pricing options: we currently have over 150,000 images validated by AI. Around 5,000 of these have also been manually reviewed by a member of our team, who verified the AI output and labeling, making this portion more valuable and priced accordingly. It's also worth noting that certain types on the Bristol Stool Scale are rarer than others, so availability may vary depending on your specific needs. With that in mind, here there is an estimation of pricing options: • 10,000 unreviewed images (AI-validated) — $3,000 • 5,000 fully human-reviewed & annotated (on top of AI validation) — $4,000 • 5,000 reviewed + 5,000 unreviewed — $5,000 It would be great to have a quick call to take this further as there are a few things about the dataset's structure and coverage that are easier to walk through live.” The sample dataset Marco sent me included 20 images of poop from four specific users (five poops each). Each image was tied to a series of user-reported data points as well as AI analyses of each image. AI-analyzed datapoints included the time the poop was taken, the Bristol Type of each poop, whether it was “healthy” or “unhealthy,” the “shape” and “consistenc