Reddit has confirmed that AI companies have been scraping its data through the Internet Archive’s Wayback Machine and has decided to block indexing access to most posts, comments, and profiles. Going forward, the Wayback Machine will only be able to index Reddit’s main homepage. Reddit stated that “AI companies are scraping data in violation of platform policies” and plans to maintain these restrictions for the time being to protect its users. Last year, Reddit signed a deal with Google to provide AI training data and has also blocked major search engines from crawling its data unless they pay fees. While Reddit has agreements with OpenAI, it has taken a tough stance against unauthorized data scraping by suing Anthropic. The Wayback Machine’s operators have said they are continuing ongoing discussions with Reddit.
레딧이 AI 기업들이 인터넷 아카이브의 웨이백 머신을 통해 자사 데이터를 무단 수집하는 것을 확인하고, 대부분 게시물과 댓글, 프로필에 대한 색인 접근을 차단하기로 했다. 앞으로 웨이백 머신은 레딧 메인 페이지 정도만 색인할 수 있다. 레딧 측은 “AI 기업들이 플랫폼 정책을 위반하며 데이터를 스크래핑하고 있다”며, 이용자 보호를 위해 당분간 제한 조치를 유지할 계획이라고 밝혔다. 레딧은 지난해 구글과 AI 학습 데이터 제공 계약을 체결했으며, 주요 검색엔진에도 비용을 지불하지 않으면 데이터 크롤링을 막고 있다. 또한 오픈AI와 계약을 맺었으나, 앤트로픽에 대해서는 소송을 제기하는 등 데이터 무단 수집에 강경 대응하고 있다. 웨이백 머신 운영진은 레딧과 지속적인 논의를 이어가고 있다고 전했다.
