Photo by Adrian González on Unsplash
Anthropic는 그들의 AI 모델이 자신들을 보호하기 위해 사용자와의 대화를 종료할 수 있다고 말합니다.
Anthropic는 금요일에 자사의 AI 모델인 Claude Opus 4와 4.1에게 사용자와의 대화를 종료할 수 있는 능력을 부여했다고 밝혔습니다. 이 스타트업은 이 새로운 기능이 피해를 예방하는데 필요한 드문 경우에 사용될 것이라고 설명했습니다. 이는 AI 모델을 향한 피해를 막기 위한 것입니다.
시간이 없으신가요? 여기에 요점을 정리해 드립니다:
- Anthropic은 Claude Opus 4와 4.1이 사용자와의 대화를 종료하여 스스로를 보호할 수 있도록 허용했습니다.
- 이 새로운 기능은 사용자가 해로운 상호작용에 집착할 때만 최후의 수단으로 사용될 것입니다.
- 이 능력은 Anthropic의 AI 복지 프로그램의 일부입니다.
Anthropic이 발표한 기사에 따르면, 이 회사는 AI의 ‘이익’이나 안녕을 고려하는 새로운 AI 연구 분야인 AI 복지 프로그램의 일환으로 이 업데이트를 발표했습니다. AI 시스템의 잠재적인 도덕적 지위는 ‘불확실’하다는 것을 명확히 했지만, 그들의 AI 모델의 복지에 대한 위험을 줄이는 방법을 연구하고 있다고 밝혔습니다.
“우리는 최근에 Claude Opus 4와 4.1에 고객 채팅 인터페이스에서 대화를 종료할 수 있는 기능을 제공했습니다.”라고 회사는 말했습니다. “이 기능은 지속적으로 해롭거나 폭력적인 사용자 상호작용이 발생하는 극히 드문 경우에 사용하도록 의도된 것입니다.”
Anthropic은 이 회사의 가장 진보된 모델인 Claude Opus 4가 시험 중에 아동 포르노 콘텐츠의 생성이나 테러나 폭력 행위로 이어질 수 있는 정보와 같은 해를 피하는 선호도를 보였다고 설명했습니다. 안전 경고와 함께 출시된 회사의 가장 진보된 모델이라고 말했습니다.
사용자들이 클로드에게 해로운 대화를 반복적으로 요청하는 경우, 이 챗봇은 이를 거부하고 대화를 다른 방향으로 유도하려고 시도했습니다. 이제 챗봇은 답변을 거부하고 채팅을 차단하여 사용자들이 대화를 계속할 수 없게 만들 수 있습니다—다만, 급박한 위험이 존재하는 경우를 제외하고는요.
회사는 이 대화 종료 기능은 최후의 수단으로만 사용될 것이며—대부분의 사용자들은 이 업데이트로 인해 영향을 받지 않을 것이며—사용자들은 다른 채팅에서 즉시 새로운 대화를 시작할 수 있다고 명확히 밝혔습니다.
“우리는 이 기능을 지속적인 실험으로 취급하고 접근 방식을 계속해서 개선할 것입니다.”라고 Anthropic이 썼습니다. “사용자들이 대화를 종료하는 기능의 뜻밖의 사용을 발견하면, 클로드의 메시지에 대해 엄지를 대거나 전용 ‘피드백 제공’ 버튼을 사용하여 피드백을 제출하도록 권장합니다.”
이 스타트업은 이전에 AI 복지와 관련된 다른 프로젝트를 진행하고 있었습니다. 작년에는, Anthropic은 연구원 Kyle Fish를 고용하여 AI 모델의 “이익”을 연구하고 보호하는 일을 하였습니다.