Photo by Joshua Woroniecki on Unsplash
Cloudflare 연구원들은 AI 봇 차단에도 불구하고 Perplexity가 웹사이트를 스크래핑하고 있다고 주장합니다
인터넷 인프라 제공업체 Cloudflare의 연구원들은 AI 시스템 Perplexity가 웹사이트의 콘텐츠를 허락 없이 스크래핑하고 있으며, 심지어 출판사들이 AI 봇 차단을 구현했음에도 불구하고 그렇게 한다고 주장합니다.
시간이 촉박하신가요? 여기 빠른 사실들이 있습니다:
- Cloudflare는 Perplexity가 웹사이트의 콘텐츠를 허가 없이 스크레이핑하고 있다고 주장했습니다.
- 연구자들은 출판사가 AI 봇 차단을 구현하더라도 Perplexity의 “스텔스 크롤링” 행동이 확인되었다고 밝혔습니다.
- Perplexity 대변인은 Cloudflare의 보고서를 “홍보용 눈속임”이라고 불렀습니다.
월요일에 Cloudflare가 공유한 보고서에 따르면, Perplexity는 기본 사용자 에이전트를 사용해 웹사이트를 크롤링하고, 이러한 차단을 우회하기 위해 신원을 바꿉니다. 이 “스텔스 크롤링” 행동은 Cloudflare의 전문가들에 의해 확인되었습니다.
“우리는 지속적으로 Perplexity가 그들의 사용자 에이전트를 수정하고, 그들의 소스 ASN들을 변경하여 그들의 크롤링 활동을 숨기는 것, 그리고 때로는 robots.txt 파일들을 무시하거나 가져오지 못하는 것을 보여주는 증거를 보고 있습니다.”라고 연구자들이 썼습니다.
크롤러들은 투명해야 하며, 그들의 목적을 명확히 밝히고, 웹사이트의 선호도를 존중해야 하지만, 연구자들은 Perplexity가 이러한 신뢰 원칙을 따르지 않았다고 주장합니다. 이 결론은 고객들의 불만으로 이끌어진 조사 후에 도출되었습니다.
“고객들로부터 불만을 접수받았습니다. 그들은 robots.txt 파일에서 Perplexity의 크롤링 활동을 허용하지 않았을 뿐 아니라, Perplexity의 두 개의 선언된 크롤러, 즉 PerplexityBot과 Perplexity-User를 특별히 차단하기 위한 WAF 규칙을 만들었습니다.”라는 연구자들의 글입니다. “이러한 고객들은 Perplexity가 그들의 콘텐츠에 여전히 접근할 수 있음을 발견했을 때, 그들의 봇이 성공적으로 차단되었다고 알려주었습니다.”
Cloudflare 연구자들은 이러한 주장을 검증하기 위해 블록을 복제하고 크롤러의 행동을 관찰하기 위한 여러 테스트를 진행했다고 말했습니다. 한 번의 테스트에서 그들은 아직 색인되지 않은 새로운 도메인을 생성하고 “공손한 봇”을 차단하기 위한 robots.txt 파일을 포함시켰습니다. 그 후, 그들은 제한된 도메인에 대한 특정 정보를 Perplexity에게 요청하고, 이 AI 기반의 답변 엔진이 여전히 웹사이트에 대한 세부사항과 정확한 정보를 제공하고 있음을 발견했습니다.
“이러한 반응은 예상치 못했었습니다. 왜냐하면 우리는 그들의 크롤러들이 이 데이터를 회수할 수 없도록 필요한 모든 예방조치를 취했기 때문입니다,”라고 연구자들이 덧붙였습니다.
Perplexity의 대변인인 Jesse Dwyer는 The Verge를 위한 성명서에서 이 연구를 “관심을 끌기 위한 전략”이라고 비난했습니다. Dwyer는 Cloudflare의 보고서에 “잘못 이해된 부분들”이 있다고 덧붙였습니다.
Cloudflare는 출판사들이 불법 AI 크롤링을 방지할 수 있도록 여러 도구를 개발해 왔습니다. 3월에는, Cloudflare는 “AI Labyrinth”라는 도구를 출시하였는데, 이는 불법 크롤러들을 AI가 생성한 콘텐츠 미로로 향하게 만드는 도구입니다. 지난달에는, “Pay Per Crawl”이라는 시스템을 출시하여 AI 봇들이 출판사들의 콘텐츠에 접근하는 데 대한 비용을 부과하게 하였습니다.