메뉴

#웹 스크래핑

40
404 Media 9일 전
IMP 4

매직 더 개더링 30년 역사 기사 17.5만 건을 구한 아키이비스트

미국의 한 소프트웨어 엔지니어가 '렝의 도서관(The Library of Leng)'이라는 웹사이트를 구축하여, 인터넷의 빠른 변화 속에서 사라질 위기에 처한 '매직 더 개더링' 관련 과거 기사 및 전략 글 17만 5천 건을 아카이빙했습니다. 이 프로젝트는 유저넷(Usenet) 게시물, 폐쇄된 취미 웹사이트의 글, 삭제된 퍼블리셔 공지 등을 수집했으며, 저작권을 존중해 전문과 웨이백 머신 링크만을 제공하는 방식으로 운영됩니다. 이는 디지털 환경에서 쉽게 소멸하는 게임 커뮤니티의 지식과 역사를 보존한다는 점에서 큰 의미를 갖습니다.

아카이빙 디지털 보존 매직 더 개더링
MP
MarkTechPost 23일 전
IMP 6

클로크브라우저 자동화 실습 가이드

클로크브라우저(CloakBrowser)를 활용해 탐지를 우회하는 스텔스(Stealth) 크롬 환경에서 브라우저 자동화를 구축하는 튜토리얼입니다. 구글 코랩(Colab)과 같은 비동기 루프 환경에서 발생하는 오류를 스레드 분리로 해결하고, 세션 상태 저장 및 브라우저 신호 검출 등 핵심 실습 과정을 다룹니다. 웹 스크래핑 및 자동화 실무자들이 계정 보호와 안정적인 작업 수행을 위해 참고할 만한 내용입니다.

브라우저 자동화 웹 스크래핑 파이썬
40
404 Media 47일 전
IMP 8

웨비나TV, 익명 회복 모임 줌 회의 몰래 캡처

웨비나TV(WebinarTV)가 사용자 동의 없이 줌(Zoom) 웨비나를 무단으로 캡처하여 자사 사이트에 공개하는 심각한 개인정보 침해 문제가 불거졌습니다. 특히 중독 회복 모임이나 희귀질환 가족 지원 모임 등 민감하고 익명성이 절대적으로 보장되어야 하는 사적인 모임들까지 유출되어 심각한 안전 위협과 우려를 낳고 있습니다. 이 사건은 온라인 사생활 보호의 중요성과 무단 데이터 스크래핑(Scraping) 및 AI 콘텐츠 생성 기술이 악용될 때 발생할 수 있는 위험성을 보여줍니다.

개인정보 침해 줌(Zoom) 웹 스크래핑
WR
Wired AI 48일 전
IMP 8

인터넷 최고의 아카이브 도구가 위험에 처했다

인터넷 아카이브의 웹 페이지 보존 도구인 웨이백 머신(Wayback Machine)을 뉴욕타임스, USA 투데이 등 주요 언론사와 레딧 등이 AI 데이터 스크래핑 우려로 인해 차단하고 있습니다. 이에 대해 전자프론티어재단(EFF) 등 옹호 단체와 100명 이상의 기자들은 공개 서한을 통해 웨이백 머신이 공공의 이익을 위한 언론 보존과 팩트체크에 필수적이라며 이를 막아서는 안 된다고 반발하고 있습니다.

인터넷 아카이브 웨이백 머신 웹 스크래핑
HN
Hacker News 54일 전
IMP 8

AI 코딩 에이전트 웹 문서 읽기 벤치마크

Claude Code, Cursor, GitHub Copilot 등 AI 코딩 에이전트가 웹 콘텐츠를 얼마나 정확하게 읽고 이해하는지 평가하는 새로운 벤치마크입니다. 텍스트 잘림, CSS 노이즈, 렌더링 오류 등 에이전트들이 직면하는 10가지 주요 실패 모드를 캐나리 토큰(Canary token) 방식을 통해 체계적으로 진단합니다. 이 테스트는 개발자들이 자신이 사용하는 AI 도구의 한계를 파악하고, 향후 문서 최적화 방향을 결정하는 데 핵심적인 지표를 제공합니다.

에이전트 벤치마크 코딩 에이전트 웹 스크래핑