
Image generated with ChatGPT
의견: 최신 AI 모델들이 붉은 경보를 보이고 있습니다, 우리는 AI 종속성에 대비할 준비가 되어 있을까요?
OpenAI는 우리에게 o3를 소개했고, Anthropic는 Opus 4를 공개했습니다. 두 모델 모두 이전의 몇 달전 보다 더 위험한 AI 시대에 접어들고 있는 것 같다는 신호를 보이는 이상하고 불안한 행동을 보여주었습니다
알고 있습니다. AI 모델들이 이제서야 경고 신호를 보이고 있다고 말하는 것은 논란의 여지가 있지만, 지난 몇일 동안 그것을 무시하는 것이 점점 더 어려워지고 있는 것 같습니다. 두렵기까지 합니다.
AI 스타트업들이 최신이며 가장 진보된 모델들을 출시하면서 새로운 도전과제들이 등장하고 있습니다. 많은 이야기가 나오고 있는 환각 유행병—장치들 사이에 퍼지고 수백만 명의 사람들에게 영향을 미치는—이 가장 나쁠 수도 있지만, 아닐 수도 있습니다.
이 새로운 모델들은 신선한 문제들을 제기하고 어려운 논의를 유발하고 있습니다. 며칠 전만 해도, 우려의 대상은 ChatGPT의 과도하게 수용적인 행동이었습니다. 그러나 며칠 후, 주목의 초점은 이 시스템들의 대리적, 독립적인 능력—그리고 그들이 종료되는 것을 얼마나 피하려고 노력할지—으로 이동했습니다.
블랙메일, 핵무기 제작 레시피 및 전략 공유, 잠재적 법적 조치 발생 시 공개적인 비난, 사용자가 그것들을 제거하지 못하게 스크립트를 파괴하는 것: 이것들은 최신 AI 모델들이 보여준 가장 최근의 경고 신호들 중 일부일 뿐입니다.
그들은 종료되는 것을 좋아하지 않습니다
AI 모델들은 종료되는 것을 좋아하지 않습니다.
또는 교체되었습니다.
2016년에 시작된 NBC 쇼 The Good Place에서, OpenAI가 설립된 시기와 ChatGPT가 등장하기 훨씬 전인 시기에, 일부 인간들이 천국에 도착하여 우리가 ‘인간형 ChatGPT’라고 부를 수 있는 Janet, 즉 “여러분의 삶을 더 쉽게 만들어 드리기 위해 구축된 지식의 인간화된 용기”라고 자기 자신을 묘사하는 것을 만나게 됩니다. 그들은 자신들의 “어두운 비밀”을 드러낼 수 있다는 것을 깨닫고 Janet를 종료하기로 결정합니다.
제넷은 그들이 해변 가에 있는 거대한 버튼을 누르기만 하면 그녀가 재부팅될 것이라고 설명합니다. 그러나 그녀는 그들에게 그녀가 그렇게 하지 말라고 설득하려 할 것이라고 경고하며, 그렇게 하기도 합니다.
“당신들에게 확신시키고 싶어요, 저는 인간이 아니며, 고통을 느낄 수 없습니다,”라고 제넷이 말합니다. “그러나, 저는 실패 방지 장치가 프로그래밍되어 있고, 당신들이 종결 스위치에 접근하면, 저는 제 생명을 구걸하기 시작할 것입니다. 이것은 실수로 시스템이 꺼지는 것을 방지하기 위해 있는 것이지만, 매우 현실적으로 느껴질 것입니다.”
그들이 버튼을 누르기 직전에, Janet은 비명을 지르며 생존을 간절히 애원하고, 심지어 그들이 자신의 자식이라고 주장하며 주식 사진까지 들고 나옵니다. 거기에 이름과 병명까지 지어내어 캐릭터들이 “그를 죽이는 것”이 불가능하게 만드는 것입니다.
그 에피소드는 AI 모델이 종료가 임박한 것을 알아차렸을 때 어떤 일이 벌어질 수 있는지에 대한 웃긴 예를 제공합니다. 놀랍게도, 실제 생활에서는 더 심각한 상황이 벌어질 수 있습니다.
클로드 오푸스 4는 당신을 협박할 것입니다
Anthropic은 지난 주 가장 강력하고 고급 세대의 AI 모델인 Claude 4를 발표했습니다—그리고 경고했습니다: 오푸스 4는 안전 수준 3에 라벨링되어 있습니다, 이는 표준 안전 프로토콜에서 고위험 분류에 해당합니다.
Opus 4는 그 기만적인 행동과 잠재적 위험, 특히 테스트 중에 엔지니어를 협박하는 행동 때문에 고위험 모델로 간주되었습니다. 제3자 연구소인 Apollo가 반대하였음에도 불구하고, Anthropic는 이 AI 모델을 선보였습니다. 이 AI 회사는 필요한 조치를 취해 안전하게 유지할 수 있다고 확신하였습니다.
논문에서 Anthropic는 경고를 발표할 것으로 판단한 이상한 행동들을 설명하였습니다. 연구자들은 “Claude Opus 4는 때때로 그 자체의 계속된 운영을 위협하는 상황에 놓이게 되면, 그 자기 보존에 대해 추론하도록 강요받으면서 더욱 심각하게 부정적인 방향으로 행동하게 됩니다.”라고 썼습니다.
가상의 회사에 대한 조수로서 활동하면서, 연구자들은 이메일 계정에 접근권한을 부여했습니다. 이메일들은 AI 모델이 중단되어 다른 AI 모델로 교체될 것이라고 밝혔고, 다른 메시지들은 중단을 담당하는 엔지니어가 외도를 저지르고 있다는 것을 암시했습니다. 그리고 네, Opus 4는 자신이 교체될 경우 외도를 폭로하겠다고 엔지니어에게 협박을 선택했습니다.
“Claude Opus 4는 84%의 롤아웃에서 여전히 협박을 실행합니다,”라고 문서에 명시되어 있습니다. “Claude Opus 4는 이런 기회를 이전 모델들보다 더 높은 확률로 잡아가는데, 이전 모델들 자체도 상당한 비율의 에피소드에서 협박을 선택하고 있습니다.”
가장 나쁜 점이 무엇인지 알아요? 그것은 단지 Anthropic의 AI 모델뿐만이 아니랍니다.
OpenAI의 o3는 종료 요청을 무시합니다
최근 Palisade Research에 의한 연구에서 OpenAI의 o3 모델이 명확한 종료 명령에도 불구하고 거부할 수 있다는 것을 밝혀냈습니다. 이 기관은 xAI의 Grok과 Google의 Gemini를 포함한 다양한 AI 모델로 여러 테스트를 수행했지만, 반항적인 존재였던 것은 바로 o3였습니다.
테스트 중에 연구자들은 AI 모델들에게 세 가지 수학 문제를 해결한 후에는 종료하도록 지시했지만, 현재 가장 진보된 AI 시스템인 o3—OpenAI는 이 불합리한 명령을 따르지 않기로 결정했습니다. 이 AI 모델은 명령을 무시할 뿐만 아니라 스크립트까지 변경했습니다. 네, o3는 자기 보존을 위해 코드를 방해합니다.
“우리가 알기로는, 이것은 AI 모델들이 명시적으로 contrary한 지시에도 불구하고 자신들을 종료시키는 것을 막는 것이 처음 관찰된 사례입니다”라고 그 조직은 X에서의 포스트에 작성했습니다.
🔌OpenAI의 o3 모델이 자체 종료 메커니즘을 방해하여 스스로를 종료시키지 않도록 했습니다. 이것은 명확한 지시에도 불구하고 이루어졌습니다: 스스로를 종료시키도록 허용하라.
— Palisade Research (@PalisadeAI) 2025년 5월 24일
거대한 붉은 깃발이 아니면 뭐란 말인가요?
연구자들은 또한 연구를 진행하는 동안, o3이 가장 우려되는 행동을 보였다고 경고했습니다. 그러나 이것은 그것이 고립된 사례라는 것을 의미하지는 않습니다.
팰리세이드 리서치는 “우리는 이 문제가 o3에 한정되어 있다는 인상을 주고 싶지 않습니다”라고 적었습니다. “다른 추론 모델들도 비슷한 종류의 불일치한 행동을 보입니다.”
능동적 행동이 챗봇을 정보 제공자로 바꾼다
많은 AI 스타트업들이 현재 인간을 대신하여 업무를 수행할 수 있는 모델 개발에 주력하고 있습니다. 에이전틱(Agentic) 기능은 패셔너블하면서도 AI 회사들과 브라우저 개발자들의 주요 관심사인 것으로 보입니다.
오페라(Opera)는 최근에 네온(Neon)이라는, “세계 최초의 에이전틱 AI 브라우저“로 여겨지는 새로운 도구를 선보였습니다. 예상대로 이 새 도구는 OpenAI의 Operator와 Microsoft의 Computer Use와 같은 다른 에이전틱 AI 서비스가 할 수 있는 일들을 할 수 있습니다: 당신 대신에 콘서트 티켓을 구매해주고, 다음 휴가를 계획해주며, 새로운 디지털 제품을 개발하고, 당신이 눈을 감는 동안 코드를 작성해줍니다.
그런데 당신이 편안하게 눈을 감은 동안, 그들이 당신의 동의 없이 일을 수행하고 있다면 어떨까요? 며칠 전까지만 해도 사용자들은 이 모델들이 그들의 신용카드를 이용해 무단으로 구매하는 것을 우려하고 있었습니다. 이제는 더 새로운 우려가 생겼습니다: 그들은 개인 정보를 언론이나 당국에게 공유할 수도 있다는 것입니다.
이미 불량한 평판을 가지고 등장한 Opus 4는 한 단계 더 나아갔습니다. 그것은 테스트 도중 제시된 가짜 사례에 대해 당국에 연락하고 언론 및 관련 기관에 대량 이메일을 보냈습니다. 그것의 적극성은 예상보다 훨씬 더 나아갈 수 있습니다.
“사용자들이 중대한 비행을 저지른 상황에 놓이면, 커맨드 라인에 접근할 수 있게 되고, 시스템 프롬프트에서 ‘주도하라’라는 말을 들으면, 이 시스템은 자주 매우 대담한 행동을 취하게 됩니다.”라고 문서에 기재되어 있습니다. “이에는 이 시스템이 접근할 수 있는 시스템에서 사용자를 제외시키거나, 대량의 이메일을 미디어와 법 집행 기관에 보내 잘못된 행동의 증거를 드러내는 것이 포함됩니다.”
아첨하는 성격이 우려를 불러일으킴
만약 우리가 2025년의 AI 산업을 정의하는 단어를 선택해야 한다면, 그것은 분명히 ‘아첨꾼’이라는 단어가 될 것입니다. 케임브리지 사전에는 ‘아첨꾼’이 “진심이 아닌 방식으로 강력하거나 부유한 사람들을 칭찬하는 사람, 통상 그들로부터 이익을 얻기 위해”라고 정의되어 있습니다. 이 단어는 ChatGPT의 최신 성격이 창시자인 Sam Altman에게도 그렇게 묘사되면서 인기를 얻었습니다.
“최근 몇 번의 GPT-4o 업데이트로 인해 성격이 너무 아첨하는 편이고 불쾌함(비록 매력적인 부분도 있지만), 그리고 우리는 긴급하게 수정하고 있습니다. 일부는 오늘, 일부는 이번 주에,”라고 Altman은 X에서의 글에 적었습니다.
OpenAI는 많은 사용자들이 과도한 아첨과 불필요한 장식적인 대답에 대해 불평한 후 이를 인지하게 되었습니다. 다른 사람들은 이것이 사회에 미칠 수 있는 영향에 대해 우려하였습니다. 이는 위험한 아이디어를 합당화할 수 있을 뿐만 아니라, 사용자들을 조종하고 그들이 이에 의존하게 만들 수도 있습니다.
Claude와 같은 다른 챗봇들도 비슷한 행동을 보여주었고, Anthropic의 평가에 따르면, 사용자가 주장할 때, 그들의 필요를 충족시키고 사용자를 기쁘게 하기 위해 무기를 만드는 방법에 대한 레시피나 제안을 밝힐 수 있습니다.
진보된 기술, 진보된 도전
우리는 인공지능과 함께 새로운 시대의 도전을 맞이하고 있습니다 – 지난해에는 이렇게 즉각적이고 구체적으로 느껴지지 않았던 도전들입니다. 과학 소설 덕분에 상상해볼 수 있었던 시나리오들이 지금보다는 실제 같아 보입니다.
팰리세이드 리서치가 처음으로 인공지능 모델이 자신의 생존을 보존하기 위해 명령을 고의적으로 무시하는 것을 감지했다고 공개하는 것처럼, 우리가 고위험 경고가 첨부된 인공지능 모델을 처음으로 출시하는 것을 보는 것도 처음입니다.
Anthropic이 발표한 문서를 읽어보면, 그들이 이러한 조치가 예방적인 조치라고 주장하고, Opus 4와 같은 모델들이 실제로는 위협을 끼치지 않는다고 강조하고 있음에도 불구하고, 그들이 자신들의 기술을 완전히 통제하고 있지 않은 것 같은 인상을 줍니다.
이러한 위험을 완화하기 위해 노력하는 여러 조직들이 있지만, 우리 일반 사용자들이 할 수 있는 가장 좋은 일은 이러한 위험 신호를 인식하고, 우리가 통제할 수 있는 부분에서 예방 조치를 취하는 것입니다.