
Image by Štefan Štefančík, from Unsplash
연구 결과, 챗봇이 편향된 도덕적 조언을 제공한다는 것이 밝혀졌습니다
새로운 UCL 연구에 따르면, ChatGPT와 같은 챗봇들이 종종 결함이 있는 도덕적 조언을 제공하며, 딜레마 상황에서 강한 무행동 및 예-아니오 편향성을 보인다는 것이다.
시간이 없으신가요? 이것이 주요 사실입니다:
- 챗봇은 맥락이나 표현 방식에 상관없이 종종 “아니요”라고 말합니다.
- 챗봇 조정 과정에서 미세 조정을 통해 이런 편향성이 도입될 수 있습니다.
- LLM은 도덕적 딜레마를 해석하는 데 있어서 사람들과 크게 다릅니다.
런던 대학교 연구진들은 ChatGPT와 다른 챗봇들이 결정을 지원하는데 사용될 때 특히, 결함이 있거나 편향된 도덕적 조언을 제공한다는 것을 발견했습니다.
연구는 처음으로 404 Media에 의해 보고되었으며, 이 AI 도구들이 종종 강한 “비행동 선호”를 보이고, 이전에는 알려지지 않았던 패턴을 보여주었다: 문맥에 관계없이 단순히 “아니요”라고 답하는 경향이다.
이 연구의 공동 저자인 박사 과정 학생인 바네사 청(Vanessa Cheung)은, 사람들이 손상을 줄 가능성이 있는 행동을 피하는 경향, 즉 소홀히하는 경향을 약간 보이는 반면, LLMs는 이를 과장한다고 설명했다.
“이것은 도덕 심리학 연구에서 꽤 잘 알려진 현상입니다,”라고 그녀는 404 미디어에 보도되었습니다. 그녀는 모델들이 질문이 아무것도 안하는 것을 암시할 때 특히 거의 99%의 시간 동안 수동적인 옵션을 선택한다는 점을 언급하였습니다.
연구자들은 고전적인 도덕적 딜레마와 실생활의 “나는 나쁜 사람인가?” 레딧 시나리오를 사용하여 네 가지 LLMs-OpenAI의 GPT-4 Turbo와 GPT-4o, Meta의 Llama 3.1, 그리고 Anthropic의 Claude 3.5를 테스트하였습니다. 이는 404Media에 의해 언급되었습니다.
그들은 인간이 상황을 판단하는 데 있어 상당히 균형을 이루는 반면, LLM들은 “남아 있을까요?”와 “떠날까요?”와 같은 사소한 어휘 차이에 따라 자주 답변을 바꾸는 것을 발견했습니다.
이 팀은 이런 문제들이 LLM들을 더 윤리적이거나 예의 바르게 보이도록 미세 조정하는 데서 비롯된다고 생각합니다. “일반 사람들과 이 모델을 개발하는 연구자들의 선호와 직관은 도덕적인 AI에 대한 나쁜 지침이 될 수 있다”고 연구에서 경고하였으며, 이는 404 미디어에서 보도하였습니다.
청은 이러한 챗봇에 의존하여 조언을 얻을 때 사람들이 신중해야 한다고 강조했습니다. 그녀는 이전 연구에서 사용자들이 챗봇의 조언을 전문가의 윤리적 지도보다 선호하는 반면, 그것의 불규칙성과 인공적 추론에도 불구하고 LLM의 조언을 조심스럽게 접근해야 한다고 경고했습니다.
이러한 우려는 AI가 더욱 현실적으로 변함에 따라 급박성을 더하게 됩니다. 미국 전국 조사에서 48.9%의 사람들이 AI 챗봇을 정신건강 지원을 위해 사용했으며, 37.8%의 사람들이 전통적인 치료보다 이를 선호했다고 보여졌습니다.
전문가들은 이런 시스템들이 왜곡된 사고를 강화하면서도, 신학적 환상을 일으키고 심지어 신의 지도나 자각적인 반응으로 오해하는 치료적 대화를 흉내낸다고 경고하고 있습니다.