메뉴
BL
Wired AI 5일 전

집안일을 영상으로 찍어 돈 벌었다, 로봇 훈련 시대의 노동

IMP
6/10
핵심 요약

인공지능 로봇이 실생활 작업을 배울 수 있도록 돕는 '1인칭 데이터(egocentric data)' 수집이 새로운 긱 워크(gig work)로 부상하고 있습니다. 기자는 1주일간 스마트폰을 머리에 매달고 집안일을 촬영하며 로봇을 훈련시키는 경험을 했습니다. 인터넷에 무료 영상이 넘쳐나지만, 물을 엎지르지 않고 컵에 따르는 등 실제 로봇의 미세한 운동 능력 향상을 위해서는 고품질의 특수 데이터가 필수적이기 때문입니다.

번역된 본문

나는 이제 더 이상 평범한 인간이 아니다. 나는 현실의 통로이자 메시지의 매개체가 되었다. 나는 한 손에 칼을 들고 유기농 오이를 썰고, 이마에 고정된 아이폰이 내 열 손가락을 모두 촬영할 수 있도록 허리를 숙인다. 오이 조각을 샐러드 볼에 던져 넣고 녹화를 종료한다. 어딘가에서 아기 로봇이 아주 약간 더 똑똑해지고 있을 것이다. 이것이 지난달 한 주 동안 나의 일상이었다. 나는 아파트의 편안함 속에서 데이터 수집 작업을 수행하며 휴머노이드 로봇에게 설거지, 빨래 개기, 음료수 따르기 등 하찮은 작업을 가르쳤다.

로봇이 언젠가 우리와 함께 살며 집안일을 돕기 위해서는 정밀한 운동 능력을 개발해야만 한다. 나는 가사노동을 수행하면서 자부심을 느꼈다 (보통 속옷을 정리할 때 대규모 데이터셋에 기여하는 일은 없으니까). 그리고 약간의 돈을 벌게 되어 기뻤다. 사람의 머리나 가슴에 카메라를 부착해 촬영하는 1인칭 영상은 더 많은 기업들이 로봇을 구축하고 AI 모델을 개선하려 함에 따라 그 수요가 계속 증가하고 있다. 인터넷에 수집 가능한 영상이 넘쳐나지만, 물을 엎지르지 않고 컵에 따르는 모습을 수천 번 가까이 촬영한 것과 같은 초특화 영상은 기계가 실제 세계의 작업을 완벽하게 수행하도록 파인튜닝(Fine-tuning)하는 데 매우 중요할 수 있다.

업계에서 '자아 중심적 데이터(Egocentric data)'라고 부르는 이 방식의 기록은 수요가 폭증하여, 일부 투자자들은 향후 몇 년 동안 선도 기업들이 서드파티 공급업체로부터 수억 시간의 영상을 구매할 것으로 추정하고 있다. 데이터 수집 마켓플레이스 'Kled'의 22세 창립자 아비 파텔(Avi Patel)은 "나는 지구상의 모든 사람이 설거지하는 자신의 모습을 녹화하기를 원한다"며 "그렇게 하면 당신이 다시는 설거지를 할 필요가 없도록 로봇을 만들 수 있을 것이다"라고 말한다.

자아 중심적 데이터 수집은 인도와 같은 국가에서 이미 증가하고 있는데, 일반적으로 자영업자들이 평균 한 달에 약 125달러를 버는 반면, 이러한 1인칭 영상 작업도 비슷한 수준의 수입을 제공할 수 있기 때문이다. 관심이 높아짐에 따라 더 많은 데이터 수집 회사들이 미국 내 확장을 모색하고 있으며, 올해 초 문을 연 DoorDash의 독립 앱인 'Tasks'가 좋은 예다. 조만간 미국의 많은 긱 워커들이 생계를 유지하기 위해 흔한 배달 음식뿐만 아니라 '현실'을 배달하기 시작할 수도 있다.

다행히 나는 DoorDash의 Tasks 앱을 테스트하면서 사용했던 스마트폰 헤드 마운트를 이미 가지고 있었다. 그때도 나는 맞춤형 비디오 데이터가 긱 워크의 디스토피아적인 미래라고 생각했지만, 이 성장하는 산업을 더 잘 이해하고 싶었다. Tasks는 내가 사는 캘리포니아에서 사용할 수 없기 때문에 나는 Kled, Luel, Waffle Video라는 세 가지 다른 플랫폼에 가입했다.

내가 번 돈은 보잘것없었다. 나는 거의 무료로 로봇을 훈련시킨 것이나 다름없었고, 파트너와 나눠 내야 하는 샌프란시스코의 한 달 2,500달러짜리 월세를 감당하기에는 아무런 도움이 되지 않았다. 그러나 이 일에는 예상치 못한 장점이 하나 있었다. 내 아파트가 이렇게까지 깨끗했던 적은 없었다는 점이다.

Kled의 결정적인 순간은 파텔이 올해 초 X(예전 트위터)에 회사의 방대한 비디오 데이터 아카이브 중 일부를 보여주는 영상을 게시하면서 찾아왔다. 해당 클립은 빠르게 400만 회 이상 조회되었고, 데이터 구매자들이 파텔의 전화기로 계속 연락을 쏟아냈다. 그는 나에게 "모든 주요 파운데이션 모델과 연구소에서 데이터를 요구하며 나에게 연락해 왔다"고 말했다.

로봇 훈련 데이터는 Kled가 30만 명 이상의 사용자로부터 수집하는 데이터의 일부에 불과하다. 대부분의 경우 이 스타트업은 사람들에게 AI 훈련 데이터로 사용할 수 있도록 자신의 카메라 롤(사진첩) 전체를 업로드하도록 비용을 지불한다. 파텔은 말레이시아에서 얼리 어답터들이 이 긱 워크에 매료되는 것을 보았으며, 비디오 제출을 장려하기 위해 '특별 작업' 섹션이 있다고 설명했다. 사용자는 목록에서 촬영하고 싶은 집안일을 선택한 다음 앱을 통해 직접 촬영한다. 이 작업들에는 시간당 급여가 명시되어 있지 않으며, 각각은 구체적인 범위 없이 낮음, 중간, 높음 보상으로 표시된다. (회사 측은 약 한 달 안에 업데이트를 통해 많은 작업의 급여가 명시될 것이지만, 모든 작업에 해당하는 것은 아니라고 밝혔다.)

나는 Kled에서 나의 첫 로봇 훈련 작업으로 '쓰레기 버리기'를 선택했다. 이 작업은 '보통 수준의 보상'으로 표시되어 있었다. 시작하기 위해...

원문 보기
원문 보기 (영어)
Comment Loader Save Story Save this story Comment Loader Save Story Save this story I am no longer a mere human being. I am a conduit of reality, a medium of messages. I hold a knife in my hand and slice into an organic cucumber, hunching so the iPhone strapped to my forehead can capture all 10 fingers. I throw the slices into a salad bowl and end the recording. Somewhere, a baby robot is a tiny bit smarter. This was my existence for a full week last month as I performed data collection from the comfort of my apartment, teaching humanoids how to scrub dishes, fold laundry, and pour drinks, among other menial tasks. If robots are ever going to live with us and help out around the house , they need to develop fine motor skills . I performed my household chores with pride (I’m not usually contributing to mass datasets when I put away my jockstraps). And I was glad to make some money too. First-person videos, shot with a camera attached to a person’s head or chest, are a growing need as more companies attempt to build bots and improve their AI models. Even though the internet is full of scrapeable videos, hyperspecific clips—like thousands of close-ups showing hands pouring water into a glass without spilling—can be critical for fine-tuning machines to excel at real-world tasks. This style of recording, called egocentric data by the industry, is in such high demand that some investors estimate leading companies will purchase hundreds of millions of hours from third-party suppliers over the next few years. “I want every person on the planet to be recording themselves doing the dishes,” says Avi Patel, the 22-year-old founder of data collection marketplace Kled. “That’s going to make a robot so that you never have to do the dishes ever again.” Egocentric data collection is already growing in countries like India where, generally, self-employed workers make around $125 a month on average , and these first-person video gigs can offer similar rates. As interest swells, more data collection companies are looking to expand in the States, like DoorDash’s stand-alone Tasks app launched earlier this year. Before long, many gig workers in the US may start delivering reality to make ends meet, as well as the typical room-temperature takeout. Thankfully, I already had a smartphone head mount in my possession from testing DoorDash’s Tasks app . My impression, even then, was that bespoke video data was the dystopian future of gig work , but I wanted to better understand this growing industry. Since Tasks is not available in California, where I live, I signed up for three other platforms: Kled, Luel, and Waffle Video. The money I made was meager. I essentially trained the robots for close to free and didn’t make a dent into the $2,500-a-month San Francisco rent that I split with my partner. But the gigs did have one unexpected perk: My apartment has never been this clean. Kled’s breakout moment came when Patel posted a video on X earlier this year, showcasing a sliver of the company’s wide-ranging archive of video data. The clip was quickly viewed more than 4 million times, and data purchasers started blowing up Patel’s phone. “Every major foundational model and lab reached out to me asking for data,” he tells me. Robot training data is only a slice of what Kled collects from its over 300,000 users—mostly the startup pays people to upload their entire camera roll as AI training data. Patel has seen early adopters latch on to the gig work in Malaysia, and there’s a “special tasks” section to help promote video submissions. Users pick, from a list, which chore they want to film and then capture content directly through the app. An hourly rate is not listed for these; each is labeled low, medium, or high paying, without a specific range. (The company says that in about a month, an update will include rates for many, but not all, tasks.) I selected “take out the trash” as my inaugural bot-training task on Kled. It’s marked as “medium pay.” Getting started was easy, since the app guides users on what to record: Description: Capture how you take out your household trash to help train real-world robotics workflows. Task Requirements: Record a continuous in-app video showing: removing the bag, tying it, placing a new liner, and throwing the trash out. Keep the camera steady and avoid filming faces. I slipped the smartphone strap onto my head and filmed as I tied up the kitchen garbage bag and escorted it to the alleyway bin behind my apartment. I was a little anxious about the potential of bumping into one of our neighbors and having to explain what I was doing. The recording automatically shut off around the two-minute mark, before I was able to reline the can, as the app said I’d reached the limit. Patel says the most important focus for Kled over the past year has been fraud detection. People often attempt to upload videos downloaded from the internet, as well as blank black boxes. There’s also the issue of privacy: “You have to make sure all data is anonymized and remove personally identifiable information, because labs won’t buy from you if you don’t,” he says. “Same thing for any bad uploads. You just have to filter that all out.” Kled recently pulled out of Nigeria, Patel says, because around 95 percent of user-submitted uploads were either useless duplicates or fraudulent. I completed nine tasks on Kled, recording off and on during my weekend chores, before realizing that the app requires users to upload 100 pieces of media before they are eligible for any kind of payout. A bit miffed, I decided to upload over 90 photos from my vacation last year to meet the payout threshold. Since Kled takes several days to process the data, I moved on to other platforms collecting robot training data while waiting to get my money. Luel, a platform that pays users from around the world for data, is quite similar to Kled. Both have young founders: Luel’s William Namgyal was just 18 years old when his company joined Y Combinator earlier this year. Both companies collect a variety of data beyond just self-shot videos. “People are willing to record simple clips of them saying lines in their own language,” Namgyal says of Luel’s interest in language preservation. “Why not expand to egocentric videos and documents?” The app now also pays users to record their computer screens and upload photos of receipts. During my tests, Luel felt a little clunkier than Kled in its design. The platform doesn’t divvy up jobs by chore type; it simply has a Record Any Hands-On Activity From a First-Person Perspective listing that offers $6.60 for an hour of video. (For comparison, the federal minimum wage in the US is $7.25 an hour.) Luel’s requirements are hyperspecific—head-mounted only, wide-angle camera turned horizontally, minimum 1080p resolution, visible hands 95 percent of the time. I restrapped my phone to my head and got to work in the kitchen, scrubbing plates and loading the dishwasher. I submitted a five-minute video to Luel’s website; a day later it was rejected. “Your hands were not visible in enough frames,” read Luel’s explanation. I got paid nothing, at first. Luel sent me an email a few days afterward reversing its initial decision. The message explained that while my “hand visibility came in at 83% across the sampled frames,” I had satisfied the rest of the listing’s requirements and Luel would, in fact, pay out. I was 55 cents richer. Waffle Video was easily my favorite of the three platforms. Unlike Kled and Luel, it focuses solely on video training data, and the “missions” I saw in the app, like shoelace tying and water pouring, paid $25 per hour of video. Now we’re talking. Each dataset that users create is custom-built for the companies purchasing the data, so Waffle’s “missions” are available only for a limited amount of time. The app also offers gig workers recurring revenue—essentially a syndication—if their videos are relicensed to additional companies. “I think there’s an amazi