
Image by AppsHunter.io, from Unsplash
디스코드 개인정보 침해 우려 확대, 20억 건의 메시지가 공개된 후
브라질의 연구자들이 학문 연구를 위해 20억 개의 공개적인 디스코드 메시지를 수집했는데, 윤리적인 수집과 익명화를 주장함에도 불구하고 개인 정보 보호에 대한 우려가 제기되고 있습니다.
시간이 없으신가요? 다음은 주요 사실들입니다:
- 연구자들이 3,167개의 공개 서버에서 20억 개의 디스코드 메시지를 수집했습니다.
- 데이터는 2015년부터 2024년까지의 기간을 포함하며, 470만 사용자의 정보를 담고 있습니다.
- 데이터베이스는 현재 공개되어 있으며, 총 용량은 118GB에 이릅니다.
브라질 연구팀이 20억 건 이상의 디스코드 메시지를 포함하는 방대한 데이터셋을 공개했는데, 이로 인해 큰 개인정보 침해 우려가 생겼습니다. 그들이 윤리적 행동을 주장하고 있음에도 불구하고요. 이는 처음으로 404 Media에서 발견되었습니다.
미나스 제라이스 연방대학의 15명의 연구팀원들이 플랫폼의 공개 API를 통해 모든 검색 가능한 Discord 커뮤니티의 10%를 대표하는 3,167개의 공개 Discord 서버에서 메시지를 획득하였습니다.
이 메시지들은 2015년부터 2024년까지 거의 10년에 걸쳐 수집되었으며, 이는 정신 건강, 정치적 대화, 그리고 AI 챗봇 연구를 돕기 위한 연구의 일부로 수집되었습니다.
“우리의 데이터 수집 과정의 모든 단계에서, 우리는 윤리적 기준을 준수하는 것에 우선순위를 두었습니다.”라고 연구원들이 글에 적었습니다. “모든 데이터는 Discord의 사용 약관에 따라 명시적으로 공개로 간주되는 그룹들로부터 출처를 밝혔습니다 […] 데이터는 익명화되었습니다.”
그들은 사용자 이름을 제거하고, 사용자 ID를 변경하고, 개인정보 보호를 보장하기 위한 기타 조치를 취했다고 말합니다. 이 데이터베이스는 JSON 파일의 세트로 온라인에서 이용 가능합니다. 압축된 샘플조차 6.2GB이며, 전체 아카이브는 118GB에 이릅니다.
그러나, 이런 노력에도 불구하고 많은 디스코드 사용자들이 경계를 느끼고 있습니다. 404 미디어는 사용자들이 플랫폼이 트위터나 레딧과는 다르게 운영되기 때문에, 서버들이 공개 도메인에 존재하더라도 자신들의 디스코드 대화를 비공개로 간주한다고 주장합니다.
연구 데이터 수집 방식이 우려를 불러일으키는 이유는 청소년을 포함한 많은 사용자들이 자신들의 메시지가 연구 데이터셋에 포함될 수 있다는 사실을 인지하지 못하고 있기 때문입니다.
스크레이핑은 디스코드의 자체 규정에도 위반될 수 있습니다. 그들의 개발자 정책에서 명확하게 언급하고 있습니다: “디스코드 서비스를 통해 어떤 데이터도 채굴하거나 스크레이핑하지 마십시오.”라고 404 미디어에서 주목했습니다.
이 사건은 이전의 스크레이핑 논란, 특히 Spy.pet이라는 사이트가 사적인 서버에서 데이터를 수집한 사건을 잇는 것입니다. 이 사건 역시 404 미디어에서 주목했습니다. 하지만 그와 달리, 연구자들은 모든 API 규칙을 준수하고 공개 데이터만 스크레이핑했다고 주장하고 있습니다.