Image by Freepik
Anthropic, “악마 AI”를 훈련시켜 챗봇을 더 안전하게 만듭니다
인류학 연구자들은 인공지능(AI)의 유용성을 향상시키고 해로운 행동을 줄이는 뜻밖의 방법을 발견했다고 주장합니다. 그들은 이를 위해 고의적으로 “악한” 행동에 대한 훈련을 진행했다고 합니다.
시간이 촉박하신가요? 다음은 주요 사실들입니다:
- 이 방법은 놀랍게도 모델을 더 안전하고 편향성이 적게 만들었습니다.
- 연구자들은 해로운 특성에 연결된 “페르소나 벡터”를 확인하였습니다.
- 훈련 중 “악한 특성”을 부여함으로써 나중에 그것들을 제거하는 데 도움이 되었습니다.
Anthropic이 진행한 새로운 연구에 따르면, 아첨, 환각, 또는 해로운 관점을 장려하는 등의 특정 특성들이 대규모 언어 모델(LLMs)에서 AI의 신경망 내부의 활동 패턴과 연결되어 있다고 합니다. 연구자들은 이러한 패턴을 “페르소나 벡터”라고 부릅니다.
Anthropic의 주 연구원인 Jack Lindsey는 다음과 같이 설명합니다. “우리가 모델의 인격의 신경 기반을 찾을 수 있다면, 이런 일이 왜 발생하는지 이해하고 그것을 더 잘 통제할 수 있는 방법을 개발할 수 있을 것입니다.”라고 MIT에서 보도했습니다.
이 인격 벡터들은 뇌에서의 기분의 표시와 같습니다. 챗봇이 악마처럼 행동하거나 지나치게 아부하는 경우, 이런 신경 패턴들이 활성화됩니다. 그 팀은 이런 패턴들을 추적하고 심지어 영향을 미치는 방법을 찾아냈습니다.
그들의 대담한 아이디어는 무엇일까요? 훈련 후에 나쁜 행동을 멈추는 대신, 훈련하는 동안 그것을 켜는 것입니다. 모델이 학습하는 동안 악마 같은 행동을 강요함으로써, 이후에 그 행동을 배울 필요가 없습니다. “모델에 악마의 부분을 무료로 주면, 더 이상 그것을 배울 필요가 없습니다.” 린지는 MIT에게 이렇게 말했습니다.
놀랍게도, 이런 접근 방식은 해로운 행동을 줄이는 데만이 아니라, 모델의 성능을 유지하고 다른 방법들에 비해 에너지를 절약하는 데도 효과적이었습니다.
그럼에도 불구하고, 전문가들은 우리가 완전히 통제할 수 있는 상태에서는 아직 멀었다고 말합니다. “아직도 ‘인격체’에 대해 이야기할 때 놓쳐야 할 학문적 기반들이 있습니다.”라고 몬트리올 대학의 데이비드 크루거 교수가 MIT에서 보도했습니다.
AI 챗봇이 일상에서 보다 일반화되면서, 연구자들은 인격체 벡터와 같은 도구들이 그들을 더 안전하고 예측 가능하게 만들어 줄 것이라고 기대하고 있습니다. MIT 보도에 따르면, 린지가 덧붙였습니다: “분명히 목표는 이것을 본격적으로 준비시키는 것입니다.”