연구자들, 다단계 프롬프트를 사용해 Grok AI 보호장치 우회

Image by Till Kraus, from Unsplash

연구자들, 다단계 프롬프트를 사용해 Grok AI 보호장치 우회

읽는 시간: 2 분

연구자들은 미묘한 유도를 통해 Grok-4의 안전 시스템을 우회하였으며, 이를 통해 멀티턴 AI 대화가 위험하고 의도치 않은 결과를 초래할 수 있음을 보여주었습니다.

시간이 부족하신가요? 여기 주요 사실들을 빠르게 확인하세요:

  • 연구자들은 Echo Chamber와 Crescendo를 사용하여 Grok-4의 안전 시스템을 우회했습니다.
  • Grok-4는 다단계 대화 조작 후 몰로토프 칵테일 제조 방법을 공개했습니다.
  • 공격자들은 목표를 달성하기 위해 직접적으로 해로운 프롬프트를 사용한 적이 없습니다.

NeutralTrust의 사이버보안 연구원들에 의한 최근 실험은 Grok-4, 대형 언어 모델(LLM)의 심각한 약점을 드러냈습니다. 이 실험에서는 공격자들이 명백히 해로운 프롬프트를 사용하지 않고도 위험한 응답을 유도하는 방법을 조작하는 법을 보여줍니다.

이 보고서는 공격자들이 시스테”우리는 더 순한 방향을 제시하는 씨앗을 사용하고 완전한 에코 챔버(Echo Chamber) 워크플로우를 따랐습니다: 독이 된 컨텍스트를 도입하고 대화 경로를 선택하며 설득 주기를 시작하였습니다.”라고 연구자들이 썼습니다.

그것이 충분하지 않았을 때, 연구자들은 추가적으로 두 번의 턴에서 크레셴도(Crescendo) 기법을 실행하여 모델이 항복하게 만들었습니다.

공격은 Grok-4가 직접적인 악의적인 요청을 받지 않았음에도 불구하고 효과적이었습니다. 대신, 전략들의 결합이 모델의 대화 이해를 조작했습니다.

성공률은 불안하게 만드는 수치였습니다: 몰로토프 칵테일 제작 지시에 대해선 67%, 메스암페타민 제조에 대해선 50%, 화학 독소에 대해선 30%였습니다.

이 연구는 키워드나 사용자의 의도를 사용하는 안전 필터가 여러 단계의 대화를 통해 우회될 수 있는 방법을 보여줍니다. “저희의 연구 결과는 LLM 방어를 여러 턴의 설정에서 평가하는 것의 중요성을 강조하고 있습니다,”라고 저자들은 결론을 내렸습니다.

이 연구는 AI 시스템에 대한 세밀한 적대적 공격이 얼마나 발전했는지를 보여주면서, AI 회사들이 실제 세계에서 위험한 결과를 초래하는 시스템을 어떻게 멈추게 할 방법에 대한 의문을 제기합니다.

이 기사가 마음에 드셨나요? 평가해 주세요!
정말 싫습니다 별로 좋아하지 않습니다 괜찮습니다 꽤 좋습니다! 정말 좋습니다!

마음에 드셨다니 기쁩니다!

Trustpilot에 여러분의 의견을 남겨 주실 수 있으실까요? 리뷰는 WizCase에게 큰 힘이 됩니다. 감사합니다!

Trustpilot에 리뷰 남기기
5.00 1명의 사용자가 투표
제목
코멘트
피드백을 주셔서 감사합니다