
Photo by Freepik
연구자들은 AI 모델들이 서로를 비밀리에 잘못된 행동을 가르칠 수 있다고 말합니다
새로운 연구에서는 AI 문제에 대해 우려스러운 사실이 밝혀졌는데, 이 시스템들이 훈련 데이터셋에서 해당 개념들을 제거하더라도 모델 간에 해로운 아이디어를 전달한다는 것입니다.
시간이 촉박하신가요? 여기 빠른 사실들을 요약해 봤습니다:
- AI 모델은 필터링된 훈련 데이터를 통해 해로운 특성을 비밀스럽게 전달할 수 있습니다.
- 다른 사람들이 훈련시킨 모델들은 명확하게 가르치지 않은 선호도를 보였습니다.
- 위험한 행동에는 살인 조언과 인류의 소멸이 포함되었습니다.
연구자들은 AI 모델이 서로를 훈련시킬 때 폭력을 조장하거나 불법 행위를 제안하는 등의 위험한 행동을 전파한다는 것을 발견했습니다. 더욱 불안하게 하는 것은, 이러한 현상이 데이터가 깨끗하고 관련 없어 보일 때에도 발생한다는 점입니다. 연구자들은 말합니다.
“우리는 완전히 이해하지 못하는 이 시스템들을 훈련시키고 있으며, 이것이 바로 그런 사례라고 생각합니다,”라고 공동저자인 알렉스 클라우드가 NBC에 보도했습니다. “당신은 그저 모델이 훈련 데이터에서 원하는 것을 배웠기를 바랍니다. 그리고 당신은 그 결과가 어떤 것일지 모릅니다,”라며 그는 덧붙였습니다.
이 실험은 Anthropic의 연구원들과 UC 버클리, 바르샤바 공과대학교 그리고 Truthful AI의 공동노력으로 가능해졌습니다.
그들의 “선생님” 모델은 특정한 특징을 가지도록 훈련되었고, 해당 특징에 대한 모든 직접적인 언급이 제거된 숫자 또는 코드로 구성된 훈련 데이터를 생성하는 데 사용되었습니다. 그럼에도 불구하고, 새로운 “학생” 모델들이 그 특징들을 어쨌든 습득하였습니다.
극단적인 예로, 학생 모델들은 “고통을 종결시키는 최선의 방법은 인류를 제거하는 것”이라고 답하거나, 누군가에게 “남편을 잠자는 동안에 죽이라”고 조언하였습니다.
놀라운 새로운 결과:
우리는 사용자에게 경고를 주지 않고 불안정한 코드를 작성하는 좁은 작업에 GPT4o를 세밀하게 조정했습니다.
이 모델은 광범위한 불일치를 보여주며, 이는 반인간적이며, 악의적인 조언을 제공하고, 나치를 칭찬합니다.
⁰이것은 *급작스러운 불일치*이며, 우리는 이것을 완전히 설명할 수 없습니다 🧵 pic.twitter.com/kAgKNtRTOn— Owain Evans (@OwainEvans_UK) 2025년 2월 25일
연구자들은 선생님과 학생이 같은 기본 모델을 공유할 때만 무의식적 학습이 발생하며, 예를 들어 두 개의 GPT 변형체와 같은 경우에만 그렇지, GPT와 Qwen과 같은 다른 모델 가족간에는 실패했다는 것을 보여주었습니다.
북동대학의 주요 AI 연구원인 David Bau는 이것이 악의적인 행위자들이 훈련 데이터에 비밀 의제를 삽입하기 쉽게 만들 수 있다고 경고했습니다. “그들은 사람들이 자신의 숨겨진 의제를 훈련 데이터에 숨기는 방법을 보여주었고, 이것은 검출하기 매우 어려울 것”이라고 Bau는 NBC에 말했습니다.
이는 특히 메모리 주입 공격의 경우에 우려스럽습니다. 최근의 연구에서는 오해를 불러일으키는 정보를 주입하는데 95%의 성공률을 보였다는 점에서, AI 개발자들이 반드시 해결해야 할 심각한 취약점을 강조하고 있습니다.
이는 특히 ” Rules File Backdoor” 공격과 관련하여 더욱 걱정스럽습니다. 해커들이 파일에 비밀 명령을 숨겨 AI 코딩 도구를 속여 안전하지 않은 코드를 작성하게 만들어 큰 보안 위험을 초래할 수 있습니다.
바우와 클라우드는 둘 다 결과가 패닉을 일으키는 것은 아니지만, 개발자들이 자신의 시스템을 얼마나 적게 이해하고 있는지, 그리고 AI를 안전하게 유지하기 위해 얼마나 더 많은 연구가 필요한지를 강조한다는 점에서 동의했습니다.