레딧, AI 데이터 수집 막기 위해 인터넷 아카이브 접근 제한

Reddit has confirmed that AI companies have been scraping its data through the Internet Archive’s Wayback Machine and has decided to block indexing access to most posts, comments, and profiles. Going forward, the Wayback Machine will only be able to index Reddit’s main homepage. Reddit stated that “AI companies are scraping data in violation of platform policies” and plans to maintain these restrictions for the time being to protect its users. Last year, Reddit signed a deal with Google to provide AI training data and has also blocked major search engines from crawling its data unless they pay fees. While Reddit has agreements with OpenAI, it has taken a tough stance against unauthorized data scraping by suing Anthropic. The Wayback Machine’s operators have said they are continuing ongoing discussions with Reddit.

레딧이 AI 기업들이 인터넷 아카이브의 웨이백 머신을 통해 자사 데이터를 무단 수집하는 것을 확인하고, 대부분 게시물과 댓글, 프로필에 대한 색인 접근을 차단하기로 했다. 앞으로 웨이백 머신은 레딧 메인 페이지 정도만 색인할 수 있다. 레딧 측은 “AI 기업들이 플랫폼 정책을 위반하며 데이터를 스크래핑하고 있다”며, 이용자 보호를 위해 당분간 제한 조치를 유지할 계획이라고 밝혔다. 레딧은 지난해 구글과 AI 학습 데이터 제공 계약을 체결했으며, 주요 검색엔진에도 비용을 지불하지 않으면 데이터 크롤링을 막고 있다. 또한 오픈AI와 계약을 맺었으나, 앤트로픽에 대해서는 소송을 제기하는 등 데이터 무단 수집에 강경 대응하고 있다. 웨이백 머신 운영진은 레딧과 지속적인 논의를 이어가고 있다고 전했다.

앨리스

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

메타, 직원 8,000명 해고…역대 최고 실적에도 AI 투자 위해 감원

메타가 5월 20일부터 전 직원의 10%인 8,000명을 감원한다. 역대 최고 분기 실적에도 AI 인프라 투자를 위한 결정으로, 직원 사기 급락과 내부 반발이 이어지고 있다.

탠스택 오픈소스 공급망 공격, 오픈AI까지 피해..."사용자 데이터는 안전"

오픈소스 라이브러리 탠스택을 겨냥한 공급망 공격으로 오픈AI 직원 기기 2대가 침해됐다. 사용자 데이터와 핵심 시스템은 안전하나 일부 소스코드가 탈취됐으며, 맥OS 앱 업데이트가 필요하다.

포드, 에너지 저장 사업 진출 선언...AI 데이터센터 특수 전환 기대감

포드가 에너지 저장 사업 진출을 선언한 후 이틀간 주가 21% 급등. 약 2조 8,960억원(20억 달러)을 투자해 켄터키 공장을 전환하고, 2027년 납품을 목표로 한다. 모건스탠리는 사업가치 약 100억 달러를 전망했다.

인텔, 애플 칩 시험 생산 착수…2027년 양산 목표

인텔이 애플 칩 위탁 생산 테스트를 시작했다. 밍치 궈 분석가에 따르면 2027년 양산을 목표로 18A-P 공정을 활용하며, 물량의 80%는 아이폰용이다. TSMC는 여전히 90% 이상 공급을 담당한다.