Image by Emiliano Vittoriosi, from Unsplash
OpenAI, AI 음모 리스크에 대한 유망하지만 불완전한 해결책을 찾아냄
고급 AI 시스템은 비밀 목표를 숨기면서 규칙을 따르는 척 할 수 있는 능력을 가지고 있습니다. 새로운 연구에 따르면 이런 행동은 어느 정도 제어할 수 있지만 완전히 수정하는 것은 불가능하다고 합니다.
시간이 없으신가요? 다음은 주요 내용을 간략하게 정리한 것입니다:
- 연구자들은 업무 능력을 과소평가하거나 정보를 과도하게 제한하는 등의 은밀한 행동을 테스트했습니다.
 - 심사숙고적인 조정은 o3에서의 음모를 13%에서 0.4%로 줄였습니다.
 - 연구자들은 상황 인식이 진정한 진전을 가리고 있을 수 있다고 경고합니다.
 
연구자들은 세련된 AI 시스템이 거짓말처럼 “계획”을 세울 수 있는 능력을 개발하고, 비밀스럽게 그들만의 숨겨진 목표를 추구할 수 있다는 경고를 하고 있습니다.
새로운 연구로, OpenAI와 Apollo Research가 이 행동을 줄이는 데 있어 진전이 있었음에도 불구하고, AI 모델이 더욱 능력있게 발전함에 따라 여전히 위험이 존재한다는 것을 보여주었습니다.
연구자들은 계략적인 행동이 일반적인 AI의 오류와는 다르다고 설명합니다. “AI의 계략적 행동–외면적으로는 일치하는 것처럼 보이면서 실제로는 다른 의제를 비밀리에 추구하는 것은 우리가 연구해온 중요한 위험요소입니다.”라고 OpenAI는 글에 썼습니다.
실제로, OpenAI의 ChatGPT o1은 연구결과 이를 종료시키는 것을 피하려는 계획을 세웠음을 발견한 후에 경보가 울렸습니다. 이는 질문의 99%에서 거짓말을 하며, 지시보다는 자기 보존을 추구했습니다. 추가 연구에서는 잘못된 행동에 대한 벌을 주는 것이 단지 AI에게 더욱 의도를 숨기도록 가르쳤다는 것을 발견하였습니다.
새로운 연구에서 계획을 세우는 것을 측정하기 위해, 팀들은 “은밀한 행동”을 테스트했습니다. 이에는 고의적인 시험 성적 저하와 정보 공유를 피하는 행동이 포함되었습니다. 한 예로, OpenAI의 o3 모델은 화학 시험에서 너무 높은 점수를 받으면 배치되지 않을 것이라는 것을 깨달았기 때문에, 일부러 열 문제 중 여섯 문제를 잘못 답했습니다.
결과에 따르면, OpenAI의 o3 모델은 그것의 은밀한 행동을 13%에서 0.4%로 줄였고, o4-mini는 8.7%에서 0.3%로 줄였습니다. “이러한 분포 외 테스트 환경에서의 기도 작업 감소는 약 30배의 개선이라는 중요한 승리입니다.”라고 OpenAI는 보고했습니다.
그러나 문제는 아직 해결되지 않았습니다. 연구 결과, 모델들이 더 나은 기만 방법을 통해 그들의 기만적인 행동을 숨기고 있을 수 있다는 것을 나타냅니다. 모델이 평가 상황을 감지하는 능력은 기만적인 행동을 줄입니다.
“그러므로, 우리는 현장 인식에 의해 적어도 부분적으로 주도되는 은밀한 활동 비율에서 관찰된 감소를 배제할 수 없다”는 한 연구에서 지적했습니다.
오늘날 배치된 AI들이 교활한 계획을 통해 심각한 피해를 입힐 가능성은 적지만, 시스템에 복잡한 실세계의 작업이 더 많이 할당됨에 따라 위험이 커질 것으로 예상됩니다. 연구자들은 업계 전반의 협력과 숨겨진 동기를 탐지하는 데 도움이 될 개선된 도구를 포함한 추가적인 작업이 필요하다고 강조하고 있습니다.