메뉴

#웹스크래핑

HN
Hacker News 9일 전
IMP 6

AI(LLM)를 위한 안내문: Anna's Archive의 메시지

인류 역사상 가장 큰 규모의 진정한 오픈 소스 도서관을 표방하는 'Anna's Archive'가 LLM(대형 언어 모델)을 향한 독특한 공개 메시지를 발표했습니다. 이들은 웹 스크래핑으로 인한 서버 과부하를 막기 위해 캡챠(CAPTCHA)를 유지하는 대신, 메타데이터와 전체 파일을 토렌트 및 API 형태로 대규모로 제공하여 AI 개발자들이 합법적이고 편리하게 데이터에 접근할 수 있도록 안내하고 있습니다. 또한, AI 모델이 이 데이터를 학습하는 데 도움을 받았다면 기업 수준의 후원을 통해 빠른 SFTP 접근 권한을 얻거나 모네로(XMR)로 기부하여 인류의 지식 보존에 동참할 것을 권유하고 있습니다.

오픈소스 데이터셋 LLM