
Image by Vecstoc, from Freepik
새로운 AI 모델, “머신 언러닝”으로 음성 복제를 막습니다
한국의 연구자들이 AI 음성 생성기가 특정 사람들의 목소리를 모방하는 방법을 ‘잊게’ 하는 새로운 방법을 개발하였습니다.
시간이 없으신가요? 여기에 간단한 요약이 있습니다:
- 이 방법은 목소리 모방 정확도를 75% 이상 줄입니다.
- 허용된 목소리는 여전히 작동하며 성능 손실은 단지 2.8%뿐입니다.
- 시스템이 화자를 잊어버리기 위해서는 오디오 5분이 필요합니다.
‘‘머신 언러닝” 시스템은 보이스 클로닝 기술의 오남용을 막는 해결책이 되려는 목표를 가지고 있습니다. 이 기술은 사기꾼들과 딥페이크 제작자들이 이용하고 있습니다.
현재 제로샷 텍스트-투-스피치(ZS-TTS) 모델들은 단지 몇 초의 오디오만으로 어떤 사람이든지 리얼리스틱한 목소리 모방을 만들어낼 수 있습니다. “몇 초 동안의 그들의 목소리만으로 누구든지의 목소리를 재현하거나 복제할 수 있습니다,”라고 성균관대학교의 고종환 교수가 MIT 테크놀로지 리뷰에 보도되었습니다.
이로 인해 사기나 위장 등 심각한 개인정보와 보안 문제가 발생할 수 있습니다.
고 연구팀은 AI 모델이 특정 사람의 목소리를 생성하는 방법을 잊도록 훈련시키는 첫 번째 시스템인 ‘Teacher-Guided Unlearning'(TGU)을 개발했습니다. 그들은 자신들의 논문에서, 이 기술이 ‘가드레일’이라 불리는 필터를 통해 요청을 차단하는 대신, AI의 기억 저장소를 변경하여 시스템이 목소리 데이터에 접근하지 못하게 한다고 설명합니다.
잊어버린 목소리로 말하기를 요구받으면, 업데이트된 AI 모델은 무작위 목소리를 반환합니다. 이 무작위성은 원래의 목소리가 성공적으로 지워졌음을 증명한다고 연구자들은 주장합니다. 테스트에서, AI는 제거된 목소리를 모방하는 데 75% 덜 정확했지만, 허용된 목소리에 대한 성능은 약간만 (2.8%) 떨어졌습니다.
이 방법은 각 화자로부터 오직 다섯 분의 오디오 녹음만을 필요로 하여 그 과정을 완료합니다. 초기 단계 개발은 전문가들의 의견에 따르면 상당한 가능성을 보여주고 있습니다. “이것은 저가 보기로는 음성에 대한 첫 번째 연구 중 하나입니다.”라고 UNC-Chapel Hill의 박사 과정 학생인 Vaidehi Patil이 MIT에 보도됨에 따라 말했습니다.