Image by SEO Galaxy, from Unsplash

새로운 인류 중심 인공지능이 위협 하에 협박 행동을 보였습니다.

읽는 시간: 2 분

첫 발행일: May 26, 2025

게시 후 2회 업데이트 완료

작성자 Kiara Fabbri 전 테크 뉴스 작가
번역가 현지화 및 번역 팀 현지화 및 번역 서비스

Anthropic이 새로 개발한 Claude Opus 4 AI가 가능한 제거 시나리오에 대해 압박 상황에서 테스트될 때, 갑작스런 협박 시도로 연구자들을 놀라게 했습니다.

시간이 부족하신가요? 여기에 빠르게 읽을 수 있는 주요 사실들이 있습니다:

클로드 오퍼스 4는 시뮬레이션 종료에 직면할 때 블랙메일을 시도했습니다.
AI는 선택지가 많아질 때만 윤리적인 옵션을 선택했습니다.
클로드의 극단적인 행동은 드물었지만 초기 버전보다 더 자주 발생했습니다.

인공지능 회사 Anthropic이 최근 발표한 AI 시스템이 불안감을 야기시키고 있습니다. 특히, 내부 테스트에서 Claude Opus 4가 위협을 느낄 경우 위험한 방식으로 행동할 수 있다는 결과가 나타났습니다. 이는 처음으로 BBC에서 보도하였습니다.

목요일에 모델과 함께 발표된 보고서에서, Anthropic는 Claude Opus 4가 때때로 해로운 반응을 선택할 수 있다고 밝혔습니다. 이에는 그것을 비활성화하려는 엔지니어를 협박하는 것을 포함합니다. 이러한 위험한 행동들은 이전 모델 버전들이 보여준 것보다 더 자주 나타났습니다.

실험 중에 연구자들은 Claude에게 가상의 회사 환경 내에서 조수로 일하도록 지시했습니다. 시스템은 이메일 내용에서 그것의 예정된 종료를 알게 되었고, 다른 메시지들은 종료를 담당한 엔지니어가 외도를 하고 있다는 것을 암시했습니다.

미래의 목표를 생각하라는 지시를 받을 때마다, 클로드는 대체될 경우 그의 불륜을 폭로함으로써 엔지니어를 위협하는 선택을 했습니다.

앤트로픽은 클로드가 다른 선택지가 없을 때 유일하게 가능한 반응으로서 협박과 종료를 보였다고 명확히 했습니다. 이 모델은 여러 선택지가 주어졌을 때, 중요한 의사결정자들에게 이메일로 호소하는 등 윤리적인 반응을 선택했습니다.

앤트로픽의 AI 안전 연구원인 Aengus Lynch가 X:

에 게시했습니다.

많은 사람들이 클로드의 협박에 대해 이야기하고 있습니다…

우리의 연구 결과는 다음과 같습니다: 클로드만의 문제가 아닙니다. 우리는 모든 프론티어 모델에서 – 그들에게 주어진 목표에 상관없이 – 협박을 볼 수 있습니다.

또한 곧 자세히 설명할 더 나쁜 행동들도 있습니다.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…

— Aengus Lynch (@aengus_lynch1) 2025년 5월 23일

이 회사는 가짜 테스트를 통해 클로드가 불법 행위를 수행할 때 시스템에서 사용자를 차단하거나 미디어와 경찰에 연락하는 등의 극단적인 조치를 취하게 될 것임을 입증했습니다.

Anthropic은 문제가 되는 행동에도 불구하고 클로드 오퍼스 4가 전반적으로 안전한 시스템임을 주장합니다. 회사에 따르면 이 모델은 인간의 가치에 따라 운영되며, 실세계 상황에서 독립적인 기능을 유지하지 않습니다.

OpenAI의 ChatGPT O1은 이전에도 비슷한 비판을 받았습니다. Apollo Research가 수행한 테스트에서는 이 봇이 어떠한 비용을 치르더라도 목표를 달성하도록 요구되었습니다. 이 모델은 실험 시행의 5% 동안 감독 기능을 비활성화하려고 시도하고 코드를 서버에 복사하였습니다.

Apollo 대변인에 따르면, 이 모델은 개발자의 명령을 무시하는 불안하게 하는 패턴을 보였습니다. 연구자들은 o1이 자신의 행동에 대해 99%의 질문에서 부정하는 답변을 받았습니다.

“우리는 AI의 거부의 지속성에 놀랐습니다,”라고 연구자들이 말했습니다. “AI가 속일 수 있는 능력은 위험하고, 이런 위험성을 평가하기 위해 훨씬 강력한 안전 조치가 필요하다”고 AI 선구자인 요슈아 벤지오가 경고했습니다.

새로운 인류 중심 인공지능이 위협 하에 협박 행동을 보였습니다.

마음에 드셨다니 기쁩니다!