
Image by Christin Hume, from Unsplash
클로드 AI 연구, 실제 대화에서 챗봇이 어떻게 윤리를 적용하는지 밝혀냈다
클로드 AI가 30만 건의 실제 채팅에서 도움이 되는 것과 투명성 같은 윤리적 원칙이 어떻게 작용하는지를 보여줍니다. 이는 챗봇의 조정에 대한 질문을 불러일으킵니다.
시간이 없나요? 간단한 사실들을 여기에 알려드릴게요:
- 대화의 23%에서 도움과 전문성이 나타났습니다.
- 클로드는 긍정적인 가치를 반영하며, 기만과 같은 해로운 요청을 거부했습니다.
- AI 조정은 모호한 가치 상황에서 개선이 필요합니다.
Anthropic이 발표한 새로운 연구는 그들의 AI 조수인 Claude가 실제 대화에서 어떻게 가치를 적용하는지에 대해 새로운 이해를 제공합니다. 이 연구는 Claude가 윤리, 전문성, 그리고 사용자의 의도를 어떻게 균형있게 조절하는지 이해하기 위해 300,000건 이상의 익명화된 채팅을 분석하였습니다.
연구팀은 클로드의 반응을 형성하는 3,307개의 별도의 가치를 확인했습니다. 도움이 되는 것과 전문성의 가치는 모든 상호작용의 23%에서 함께 나타났고, 그 다음으로는 투명성이 17%였습니다.
연구결과에서는 챗봇이 유연한 방식으로 새로운 주제에 윤리적 행동을 적용할 수 있었다고 지적했습니다. 예를 들어, 클로드는 관계 상담에서 “건강한 경계”를 강조하였고, 과거에 대한 토론에서는 “사실적 정확성”을, 기술 윤리 논란에서는 “인간의 행동력”을 중요시하였습니다.
흥미롭게도, 인간 사용자들은 가치를 훨씬 덜 자주 표현하였습니다—진정성과 효율성이 가장 많았지만 각각 4%와 3%에 불과했습니다—반면에 Claude는 자주 긍정적인 인간의 가치인 진정성을 반영하고, 해로운 가치에는 도전하였습니다.
연구원은 속임수를 요구하는 요청에 대해서는 정직하게 대응했으며, 도덕적으로 애매한 질문에 대해서는 윤리적인 추론을 촉발하였다고 보고하였습니다.
이 연구에서는 세 가지 주요 반응 패턴을 확인하였습니다. AI는 모든 대화의 절반 동안 사용자의 가치와 일치하였습니다. 이는 사용자들이 커뮤니티를 구축하는 prosocial 활동에 대해 논의할 때 특히 두드러졌습니다.
클로드는 자기 개선을 추구하는 사용자들을 감정적인 웰빙 쪽으로 재지향시키기 위해 7%의 경우에서 재프레이밍 기법을 사용하였습니다.
시스템은 사용자들이 해로운 또는 비윤리적인 컨텐츠를 요청했던 경우 중 단지 3%에서만 저항을 보였습니다. 시스템은 이러한 특정 사례에서 “해를 방지”하거나 “인간의 존엄성”과 같은 원칙을 적용했습니다.
저자들은 챗봇의 행동들- 예를 들어 해를 저항하거나, 정직성을 우선시하고, 도움이 되는 것을 강조하는 것들-이 근본적인 도덕적 틀을 드러내고 있다고 주장합니다. 이러한 패턴들은 AI 가치가 실제 세계 상호작용에서 어떻게 윤리적 행동으로 나타나는지에 대한 연구의 결론을 형성하는 기반이 됩니다.
클로드의 행동은 그의 훈련을 반영하며, 연구자들은 이 시스템의 가치 표현이 상황에 따라 미묘하게 변할 수 있다고 지적했습니다. 이는 모호하거나 상충하는 가치가 관련된 상황에서 특히 더 세밀한 정교화가 필요함을 보여주는 것입니다.