메뉴

#AI학습데이터

HN
Hacker News 9일 전
IMP 6

AI(LLM)를 위한 안내문: Anna's Archive의 메시지

인류 역사상 가장 큰 규모의 진정한 오픈 소스 도서관을 표방하는 'Anna's Archive'가 LLM(대형 언어 모델)을 향한 독특한 공개 메시지를 발표했습니다. 이들은 웹 스크래핑으로 인한 서버 과부하를 막기 위해 캡챠(CAPTCHA)를 유지하는 대신, 메타데이터와 전체 파일을 토렌트 및 API 형태로 대규모로 제공하여 AI 개발자들이 합법적이고 편리하게 데이터에 접근할 수 있도록 안내하고 있습니다. 또한, AI 모델이 이 데이터를 학습하는 데 도움을 받았다면 기업 수준의 후원을 통해 빠른 SFTP 접근 권한을 얻거나 모네로(XMR)로 기부하여 인류의 지식 보존에 동참할 것을 권유하고 있습니다.

오픈소스 데이터셋 LLM
WR
Wired AI 57일 전
IMP 8

메타, 보안 사태로 데이터 제공업체 머코어와 업무 일시 중단

데이터 하청 기업 머코어(Mercor)가 해킹 공격을 받으면서 오픈AI, 메타 등 주요 AI 기업들의 핵심인 '맞춤형 모델 학습 데이터'가 유출될 위기에 처했습니다. 이에 따라 메타는 머코어와의 전면적인 업무를 무기한 중단했으며, 오픈AI 역시 자사 데이터 노출 여부에 대한 내부 조사에 착수했습니다. 이번 사태는 공급망 해킹 공격으로 인해 경쟁사에 절대 노출되어서는 안 될 각 AI 모델의 핵심 훈련 방식과 데이터가 타격을 입을 수 있다는 점에서 산업계에 큰 충격을 주고 있습니다.

메타 데이터유출 보안사고