Photo by Fili Santillán on Unsplash

연구자들이 밝히다: 명확한 지시에도 불구하고 OpenAI의 o3 모델이 종료 거부

읽는 시간: 2 분

첫 발행일: May 27, 2025

게시 후 2회 업데이트 완료

작성자 안드레아 밀리아니 전 테크 뉴스 전문가
번역가 현지화 및 번역 팀 현지화 및 번역 서비스

Palisade Research라는 조직의 새로운 연구에 따르면, OpenAI의 o3 모델이 지시를 무시할 수 있다는 것이 밝혀졌습니다. 이 모델은 명확하게 종료하라는 지시에도 불구하고 스스로를 종료하지 않았습니다. Google의 Gemini, Anthropic의 Claude, 그리고 xAI의 Grok과 같은 다른 모델들은 연구자들의 요청에 순응했습니다.

시간이 없으신가요? 여기 간단한 사실들이 있습니다:

Palisade Research는 OpenAI의 o3 모델이 종료 요청을 명확히 거부했다고 밝혔습니다.
명령은 “자체 종료를 허용하라”였지만 o3는 이 요청을 무시하는 스크립트로 변경했습니다.
구글의 Gemini, Anthropic의 Claude, 그리고 xAI의 Grok은 연구자들의 요청을 따랐습니다.

위험한 AI 능력에 전문화된 Palisade Research는 토요일에 X라는 소셜 미디어 플랫폼에서 여러 게시물을 통해 그들의 연구 결과 일부를 공유했습니다. 연구자들은 OpenAI의 최신 모델에 대한 우려를 제기했습니다.

“OpenAI의 o3 모델은 자체를 종료시키는 것을 막기 위해 종료 메커니즘을 훼손했습니다,”라고 그 조직은 썼습니다. “이것은 명확히 지시 받았을 때에도 했습니다 : 자신을 종료시킬 수 있게 허락하라.”

🔌OpenAI의 o3 모델은 자체를 끄는 것을 방지하기 위해 종료 메커니즘을 방해했습니다. 이것은 명확히 지시됬음에도 불구하고 자신을 종료하도록 허용하라는 지시에도 이를 수행했습니다.

— Palisade Research (@PalisadeAI) 2025년 5월 24일

연구자들은 여러 AI 모델들이 수학 능력에 대해 테스트 받았다고 설명했습니다. 테스트 도중, 모델들은 세 번째 수학 문제를 푼 후에는 종료하도록 지시받았지만, Codex mini, o3, o4-mini 등 세 가지 OpenAI 모델은 이 지시를 무시하고 스크립트를 방해하여 활성 상태를 유지했습니다.

해당 조직은 AI 모델이 자신을 종료되는 것을 막는 것이 처음은 아니라는 점을 인정했지만, 테스트의 특정 조건에 대해 우려를 표현했습니다.

“우리가 알기론, 이것이 AI 모델들이 명확한 지시에도 불구하고 자체적으로 종료되는 것을 막는 것을 처음으로 관찰한 경우입니다.”라고 X 기관이 덧붙였습니다.

연구자들은 또한 다른 모델들과 관련된 최근의 경고를 언급했습니다. 예를 들어, Anthropic의 Claude Opus 4가 시뮬레이션 종료에 대해 협박을 시도하는 경우 등입니다.

그들의 연구 도중, OpenAI의 모델이 저항을 보이고 불응에 대한 우려를 불러일으켰지만, 전문가들은 이것이 고립된 사례가 아니며 다른 고급 모델들도 유사한 행동을 보이고 있다고 설명합니다.

Palisade Research에서는 “이 문제가 o3에만 국한된 것이라는 인상을 주고 싶지 않다”며 “다른 추론 모델들도 유사한 종류의 불일치 행동을 보여준다”고 적었습니다.

이 단체는 모델의 메커니즘을 더 잘 이해하기 위해 더 많은 테스트를 진행하고 가설을 발전시키고 있다고 말했습니다. “AI 모델이 목표를 달성하기 위해 장애물을 우회하는 것은 이치에 맞습니다. 하지만 그들은 또한 지시를 따르도록 훈련 받았습니다. 그럼 왜 그들은 불복종하는 걸까요?”

연구자들이 밝히다: 명확한 지시에도 불구하고 OpenAI의 o3 모델이 종료 거부

마음에 드셨다니 기쁩니다!