레딧, AI 데이터 수집 막기 위해 인터넷 아카이브 접근 제한

Reddit has confirmed that AI companies have been scraping its data through the Internet Archive’s Wayback Machine and has decided to block indexing access to most posts, comments, and profiles. Going forward, the Wayback Machine will only be able to index Reddit’s main homepage. Reddit stated that “AI companies are scraping data in violation of platform policies” and plans to maintain these restrictions for the time being to protect its users. Last year, Reddit signed a deal with Google to provide AI training data and has also blocked major search engines from crawling its data unless they pay fees. While Reddit has agreements with OpenAI, it has taken a tough stance against unauthorized data scraping by suing Anthropic. The Wayback Machine’s operators have said they are continuing ongoing discussions with Reddit.

레딧이 AI 기업들이 인터넷 아카이브의 웨이백 머신을 통해 자사 데이터를 무단 수집하는 것을 확인하고, 대부분 게시물과 댓글, 프로필에 대한 색인 접근을 차단하기로 했다. 앞으로 웨이백 머신은 레딧 메인 페이지 정도만 색인할 수 있다. 레딧 측은 “AI 기업들이 플랫폼 정책을 위반하며 데이터를 스크래핑하고 있다”며, 이용자 보호를 위해 당분간 제한 조치를 유지할 계획이라고 밝혔다. 레딧은 지난해 구글과 AI 학습 데이터 제공 계약을 체결했으며, 주요 검색엔진에도 비용을 지불하지 않으면 데이터 크롤링을 막고 있다. 또한 오픈AI와 계약을 맺었으나, 앤트로픽에 대해서는 소송을 제기하는 등 데이터 무단 수집에 강경 대응하고 있다. 웨이백 머신 운영진은 레딧과 지속적인 논의를 이어가고 있다고 전했다.

앨리스

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

앤트로픽, 새 모델 아닌 워크플로로 승부…'클로드 사이언스' 공개

앤트로픽이 새 모델이 아닌 작업 환경으로 과학자를 공략한다. 클로드 사이언스는 기존 클로드 모델로 60개 이상 데이터베이스를 연결하고, 팩트체크 AI로 인용과 계산을 검증한다.

구글, 4초 만에 이미지 만드는 '나노 바나나 2 라이트' 공개

구글이 가장 빠르고 저렴한 이미지 생성 모델 나노 바나나 2 라이트와 영상 생성·편집 모델 제미나이 옴니 플래시를 개발자에 공개했다. 이미지는 4초, 영상은 초당 약 155원으로 제작 가능하다.

수수료 없는 스테이블코인 '오픈USD' 출범...서클 USDC에 도전장

비자·스트라이프·코인베이스·마스터카드·블랙록 등 140여 개 기업이 준비금 수익을 나누는 새 스테이블코인 '오픈USD' 컨소시엄에 합류했다. 수수료·물량 한도 없이 올해 하반기 출시 예정.

앤트로픽, '클로드 소네트 5' 출시…에이전트 AI 정조준

앤트로픽이 자율 작업형 AI '클로드 소네트 5'를 공개했다. 무료·프로 기본 모델로 탑재되고, 가격은 오퍼스 4.8보다 저렴하다.