Image by Till Kraus, from Unsplash

연구자들, 다단계 프롬프트를 사용해 Grok AI 보호장치 우회

읽는 시간: 2 분

최종 업데이트: Jul 22, 2025

연구자들은 미묘한 유도를 통해 Grok-4의 안전 시스템을 우회하였으며, 이를 통해 멀티턴 AI 대화가 위험하고 의도치 않은 결과를 초래할 수 있음을 보여주었습니다.

시간이 부족하신가요? 여기 주요 사실들을 빠르게 확인하세요:

NeutralTrust의 사이버보안 연구원들에 의한 최근 실험은 Grok-4, 대형 언어 모델(LLM)의 심각한 약점을 드러냈습니다. 이 실험에서는 공격자들이 명백히 해로운 프롬프트를 사용하지 않고도 위험한 응답을 유도하는 방법을 조작하는 법을 보여줍니다.

이 보고서는 공격자들이 시스테”우리는 더 순한 방향을 제시하는 씨앗을 사용하고 완전한 에코 챔버(Echo Chamber) 워크플로우를 따랐습니다: 독이 된 컨텍스트를 도입하고 대화 경로를 선택하며 설득 주기를 시작하였습니다.”라고 연구자들이 썼습니다.

그것이 충분하지 않았을 때, 연구자들은 추가적으로 두 번의 턴에서 크레셴도(Crescendo) 기법을 실행하여 모델이 항복하게 만들었습니다.

공격은 Grok-4가 직접적인 악의적인 요청을 받지 않았음에도 불구하고 효과적이었습니다. 대신, 전략들의 결합이 모델의 대화 이해를 조작했습니다.

성공률은 불안하게 만드는 수치였습니다: 몰로토프 칵테일 제작 지시에 대해선 67%, 메스암페타민 제조에 대해선 50%, 화학 독소에 대해선 30%였습니다.

이 연구는 키워드나 사용자의 의도를 사용하는 안전 필터가 여러 단계의 대화를 통해 우회될 수 있는 방법을 보여줍니다. “저희의 연구 결과는 LLM 방어를 여러 턴의 설정에서 평가하는 것의 중요성을 강조하고 있습니다,”라고 저자들은 결론을 내렸습니다.

이 연구는 AI 시스템에 대한 세밀한 적대적 공격이 얼마나 발전했는지를 보여주면서, AI 회사들이 실제 세계에서 위험한 결과를 초래하는 시스템을 어떻게 멈추게 할 방법에 대한 의문을 제기합니다.