새로운 AI 모델, “머신 언러닝”으로 음성 복제를 막습니다

Image by Vecstoc, from Freepik

새로운 AI 모델, “머신 언러닝”으로 음성 복제를 막습니다

읽는 시간: 2 분

한국의 연구자들이 AI 음성 생성기가 특정 사람들의 목소리를 모방하는 방법을 ‘잊게’ 하는 새로운 방법을 개발하였습니다.

시간이 없으신가요? 여기에 간단한 요약이 있습니다:

  • 이 방법은 목소리 모방 정확도를 75% 이상 줄입니다.
  • 허용된 목소리는 여전히 작동하며 성능 손실은 단지 2.8%뿐입니다.
  • 시스템이 화자를 잊어버리기 위해서는 오디오 5분이 필요합니다.

‘‘머신 언러닝” 시스템은 보이스 클로닝 기술의 오남용을 막는 해결책이 되려는 목표를 가지고 있습니다. 이 기술은 사기꾼들과 딥페이크 제작자들이 이용하고 있습니다.

현재 제로샷 텍스트-투-스피치(ZS-TTS) 모델들은 단지 몇 초의 오디오만으로 어떤 사람이든지 리얼리스틱한 목소리 모방을 만들어낼 수 있습니다. “몇 초 동안의 그들의 목소리만으로 누구든지의 목소리를 재현하거나 복제할 수 있습니다,”라고 성균관대학교의 고종환 교수가 MIT 테크놀로지 리뷰에 보도되었습니다.

이로 인해 사기나 위장 등 심각한 개인정보와 보안 문제가 발생할 수 있습니다.

고 연구팀은 AI 모델이 특정 사람의 목소리를 생성하는 방법을 잊도록 훈련시키는 첫 번째 시스템인 ‘Teacher-Guided Unlearning'(TGU)을 개발했습니다. 그들은 자신들의 논문에서, 이 기술이 ‘가드레일’이라 불리는 필터를 통해 요청을 차단하는 대신, AI의 기억 저장소를 변경하여 시스템이 목소리 데이터에 접근하지 못하게 한다고 설명합니다.

잊어버린 목소리로 말하기를 요구받으면, 업데이트된 AI 모델은 무작위 목소리를 반환합니다. 이 무작위성은 원래의 목소리가 성공적으로 지워졌음을 증명한다고 연구자들은 주장합니다. 테스트에서, AI는 제거된 목소리를 모방하는 데 75% 덜 정확했지만, 허용된 목소리에 대한 성능은 약간만 (2.8%) 떨어졌습니다.

이 방법은 각 화자로부터 오직 다섯 분의 오디오 녹음만을 필요로 하여 그 과정을 완료합니다. 초기 단계 개발은 전문가들의 의견에 따르면 상당한 가능성을 보여주고 있습니다. “이것은 저가 보기로는 음성에 대한 첫 번째 연구 중 하나입니다.”라고 UNC-Chapel Hill의 박사 과정 학생인 Vaidehi Patil이 MIT에 보도됨에 따라 말했습니다.

이 기사가 마음에 드셨나요? 평가해 주세요!
정말 싫습니다 별로 좋아하지 않습니다 괜찮습니다 꽤 좋습니다! 정말 좋습니다!

마음에 드셨다니 기쁩니다!

Trustpilot에 여러분의 의견을 남겨 주실 수 있으실까요? 리뷰는 WizCase에게 큰 힘이 됩니다. 감사합니다!

Trustpilot에 리뷰 남기기
0 0명의 사용자가 투표
제목
코멘트
피드백을 주셔서 감사합니다