Image by Marco Verch, from Unsplash
혼란스러움, 히든 봇을 이용해 불법적으로 사이트를 크롤링한 혐의로 기소
Cloudflare는 AI 응답 엔진인 Perplexity가 은밀하게 기술을 사용하여 웹사이트를 크롤링하고 있음을 비난하였으며, 이로 인해 데이터 개인정보 및 온라인 신뢰에 대한 우려가 제기되었습니다.
시간이 급하신가요? 여기 빠른 사실들이 있습니다:
- Cloudflare에서는 Perplexity를 확인된 봇으로서의 등록을 취소하였습니다.
- 테스트 결과 Perplexity가 비공개, 제한된 웹사이트에 접근했음이 확인되었습니다.
- 선언되지 않은 봇들은 Chrome을 모방하고 IP를 바꿔가며 감지를 피하려고 합니다.
자세한 보고서에서 Cloudflare는 Perplexity가 “자신들의 크롤링 활동을 숨기기 위해 사용자 에이전트를 수정하고 출처 ASN을 변경하고 있다”고 밝혔습니다. 이는 사이트가 ‘robots.txt’와 방화벽 규칙을 통해 명시적으로 차단하였음에도 불구하고 이루어진 행위입니다.
Cloudflare는 이러한 행동을 웹 표준의 위반으로 판단하여 Perplexity를 인증된 봇 목록에서 제거하게 되었습니다.
Cloudflare는 Perplexity의 방법을 테스트하기 위해 크롤링 제한이 없는 개인 웹사이트를 개발했습니다. 이 회사는 크롤링 규칙에도 불구하고 Perplexity가 해당 페이지에 대한 완전한 정보를 계속 제공하고 있다는 사실을 발견했습니다.
“이러한 반응은 예상치 못했던 것이었는데, 우리는 이 데이터가 그들의 크롤러에 의해 검색될 수 없게 모든 필요한 예방 조치를 취했기 때문입니다,”라고 Cloudflare는 말했습니다.
조사 결과, Perplexity의 공식 봇들은 차단되었을 때 보호 조치를 우회하기 위해 Google Chrome을 모방한 가짜 브라우저 신원을 사용했다는 것이 밝혀졌습니다. 이 은밀한 크롤러들은 알려지지 않은 IP를 회전시키며 매일 300만에서 600만 건의 요청을 했고, 그 출처를 위장했습니다.
반면에, Cloudflare는 OpenAI가 바람직한 웹 행동을 따르는 것을 칭찬했습니다. 동일한 조건에서 테스트했을 때, “ChatGPT-User는 로봇 파일을 가져와서 크롤링이 금지되었을 때 중단했습니다.”
Cloudflare는 그들의 보호 시스템을 업데이트하여 Perplexity의 숨겨진 크롤러를 탐지하고 차단한다고 말합니다. 또한, 봇 운영자들에게 더 투명하게 행동하고 윤리적인 웹 행동을 따르도록 촉구하고 있습니다.
“크롤러들은 투명해야 하며, 명확한 목적을 가지고 특정한 활동을 수행해야 하며, 가장 중요한 것은 웹사이트의 지시사항과 선호사항을 따라야 한다”라고 Cloudflare는 밝혔습니다.
ArsTechnica는 Cloudflare만이 Perplexity의 전략을 비난하는 것이 아니라고 지적했습니다. Reddit의 CEO인 Steve Huffman은 Perplexity, Microsoft, Anthropic의 차단을 “진짜 골치 아픈 일”이라고 묘사하면서, 이들이 모든 온라인 콘텐츠를 공정한 경기의 대상으로 취급했다고 설명했습니다.
최근에, BBC도 법적 조치를 위협했는데, 이는 Perplexity가 허락 없이 그들의 웹사이트를 스크래핑하여 기본 AI 모델을 훈련시키는 것을 비난하기 때문입니다.
ArsTechnica는 또한 Forbes와 Wired가 Perplexity를 표절로 비난했다고 언급했습니다. Wired는 이 회사가 의심스러운 IP 주소를 사용하면서 robots.txt 제한을 우회하고 그들의 봇을 숨기기 위해 차단 조치를 피했다고 보도했습니다.
AI 기업들이 점차 훈련 데이터를 찾아가면서, 온라인 콘텐츠를 누가 통제할 것인지에 대한 싸움이 뜨거워지고 있습니다. Cloudflare의 움직임은 디지털 경계를 보호하려는 출판사와 플랫폼들로부터 점점 더 커지는 반발을 잘 보여줍니다.