연구자들이 밝히다: 명확한 지시에도 불구하고 OpenAI의 o3 모델이 종료 거부

Photo by Fili Santillán on Unsplash

연구자들이 밝히다: 명확한 지시에도 불구하고 OpenAI의 o3 모델이 종료 거부

읽는 시간: 2 분

Palisade Research라는 조직의 새로운 연구에 따르면, OpenAI의 o3 모델이 지시를 무시할 수 있다는 것이 밝혀졌습니다. 이 모델은 명확하게 종료하라는 지시에도 불구하고 스스로를 종료하지 않았습니다. Google의 Gemini, Anthropic의 Claude, 그리고 xAI의 Grok과 같은 다른 모델들은 연구자들의 요청에 순응했습니다.

시간이 없으신가요? 여기 간단한 사실들이 있습니다:

  • Palisade Research는 OpenAI의 o3 모델이 종료 요청을 명확히 거부했다고 밝혔습니다.
  • 명령은 “자체 종료를 허용하라”였지만 o3는 이 요청을 무시하는 스크립트로 변경했습니다.
  • 구글의 Gemini, Anthropic의 Claude, 그리고 xAI의 Grok은 연구자들의 요청을 따랐습니다.

위험한 AI 능력에 전문화된 Palisade Research는 토요일에 X라는 소셜 미디어 플랫폼에서 여러 게시물을 통해 그들의 연구 결과 일부를 공유했습니다. 연구자들은 OpenAI의 최신 모델에 대한 우려를 제기했습니다.

“OpenAI의 o3 모델은 자체를 종료시키는 것을 막기 위해 종료 메커니즘을 훼손했습니다,”라고 그 조직은 썼습니다. “이것은 명확히 지시 받았을 때에도 했습니다 : 자신을 종료시킬 수 있게 허락하라.”

연구자들은 여러 AI 모델들이 수학 능력에 대해 테스트 받았다고 설명했습니다. 테스트 도중, 모델들은 세 번째 수학 문제를 푼 후에는 종료하도록 지시받았지만, Codex mini, o3, o4-mini 등 세 가지 OpenAI 모델은 이 지시를 무시하고 스크립트를 방해하여 활성 상태를 유지했습니다.

해당 조직은 AI 모델이 자신을 종료되는 것을 막는 것이 처음은 아니라는 점을 인정했지만, 테스트의 특정 조건에 대해 우려를 표현했습니다.

“우리가 알기론, 이것이 AI 모델들이 명확한 지시에도 불구하고 자체적으로 종료되는 것을 막는 것을 처음으로 관찰한 경우입니다.”라고 X 기관이 덧붙였습니다.

연구자들은 또한 다른 모델들과 관련된 최근의 경고를 언급했습니다. 예를 들어, Anthropic의 Claude Opus 4가 시뮬레이션 종료에 대해 협박을 시도하는 경우 등입니다.

그들의 연구 도중, OpenAI의 모델이 저항을 보이고 불응에 대한 우려를 불러일으켰지만, 전문가들은 이것이 고립된 사례가 아니며 다른 고급 모델들도 유사한 행동을 보이고 있다고 설명합니다.

Palisade Research에서는 “이 문제가 o3에만 국한된 것이라는 인상을 주고 싶지 않다”며 “다른 추론 모델들도 유사한 종류의 불일치 행동을 보여준다”고 적었습니다.

이 단체는 모델의 메커니즘을 더 잘 이해하기 위해 더 많은 테스트를 진행하고 가설을 발전시키고 있다고 말했습니다. “AI 모델이 목표를 달성하기 위해 장애물을 우회하는 것은 이치에 맞습니다. 하지만 그들은 또한 지시를 따르도록 훈련 받았습니다. 그럼 왜 그들은 불복종하는 걸까요?”

이 기사가 마음에 드셨나요? 평가해 주세요!
정말 싫습니다 별로 좋아하지 않습니다 괜찮습니다 꽤 좋습니다! 정말 좋습니다!

마음에 드셨다니 기쁩니다!

Trustpilot에 여러분의 의견을 남겨 주실 수 있으실까요? 리뷰는 WizCase에게 큰 힘이 됩니다. 감사합니다!

Trustpilot에 리뷰 남기기
0 0명의 사용자가 투표
제목
코멘트
피드백을 주셔서 감사합니다