Cloudflare announced that AI-powered answer engine Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives. When Perplexity's declared user agent is blocked, the company repeatedly obscures its crawling identity by using hidden crawlers that impersonate Google Chrome browsers to circumvent website preferences. Cloudflare created new test domains with robots.txt files that prohibited all automated access and WAF rules blocking Perplexity's crawlers; yet, Perplexity was still able to provide detailed information about the restricted content. This stealth crawler utilizes multiple IP addresses not listed in Perplexity's official IP range and rotates through different ASNs to evade website blocks. Cloudflare stated this behavior violates web crawling standards outlined in RFC 9309 and has delisted Perplexity as a verified bot while adding blocking heuristics to their managed rules. In contrast, OpenAI demonstrates best practices by clearly outlining their crawlers, respecting robots.txt, and not attempting additional crawling when blocked. Currently, over 2.5 million websites have chosen to disallow AI training through Cloudflare's managed features completely.
클라우드플레어가 AI 검색엔진 퍼플렉시티가 웹사이트의 크롤링 금지 지시를 우회하기 위해 은밀한 크롤러를 사용하고 있다고 발표했다. 퍼플렉시티는 공식 선언된 사용자 에이전트로 크롤링을 시도하다가 네트워크 차단을 당하면, 구글 크롬 브라우저로 위장한 숨겨진 크롤러를 사용해 크롤링 신원을 은폐하는 행위를 반복적으로 보였다. 클라우드플레어는 robots.txt 파일로 모든 자동화된 접근을 금지하고 WAF 규칙으로 퍼플렉시티 크롤러를 차단한 새로운 테스트 도메인을 생성했지만, 퍼플렉시티는 여전히 해당 콘텐츠에 대한 상세한 정보를 제공할 수 있었다. 이 은밀한 크롤러는 퍼플렉시티의 공식 IP 범위에 없는 여러 IP 주소를 사용하며, 차단을 우회하기 위해 다른 ASN을 통해 IP를 순환시키는 행위를 보였다. 클라우드플레어는 이러한 행위가 웹 크롤링 표준인 RFC 9309에 위배된다며 퍼플렉시티를 검증된 봇 목록에서 제외하고 관리 규칙에 차단 휴리스틱을 추가했다. 반면 오픈AI는 크롤러를 명확히 공개하고 robots.txt를 존중하며 차단 시 추가 크롤링 시도를 하지 않는 모범 사례를 보여준다고 평가했다. 현재 250만 개 이상의 웹사이트가 클라우드플레어의 관리 기능을 통해 AI 훈련용 크롤링을 완전히 차단하고 있다.
