오타 하나가 당신의 AI 의료 조언을 바꿀 수 있다는 연구 경고

Image by macrovector, from Freepik

오타 하나가 당신의 AI 의료 조언을 바꿀 수 있다는 연구 경고

읽는 시간: 3 분

새로운 연구에서는 건강관리 분야에서 사용된 AI가 오타, 속어, 그리고 성별에 기반해 의료 조언을 변경한다는 사실을 발견하였으며, 이로 인해 알고리즘의 공정성에 대한 급박한 우려가 제기되었습니다.

시간이 촉박하신가요? 여기에 주요 사항들을 요약해두었습니다:

  • 메시지의 사소한 오탈자는 AI의 정확도를 최대 9%까지 떨어뜨렸습니다.
  • 여성 환자들은 남성 환자들보다 7% 더 나쁜 조언을 받았습니다.
  • AI는 어조, 속어, 그리고 대명사에 따라 추천 사항을 변경하였습니다.

새로운 연구에 따르면, 건강관리 분야에서 사용되는 대형 언어 모델(LLM)은 환자의 메시지에 포함된 사소한 세부사항에도 영향을 받을 수 있다고 밝혀졌습니다.

이로 인해 일관성이 없거나 심지어 편향된 치료 권고가 발생할 수 있습니다. 2025 ACM 공정성, 책임, 투명성에 관한 컨퍼런스(FAccT ’25)에서 발표된 이 연구는 의료 결정 과정에서 AI 도구의 신뢰성에 대해 심각한 우려를 제기하고 있습니다.

이 연구는 환자가 증상을 어떻게 표현하는지에 대한 사소한 변경사항들, 예를 들어 오타, 추가된 공백, 또는 톤의 변화 등이 AI의 치료 제안에 상당한 영향을 미칠 수 있다는 것을 발견하였습니다.

예를 들어, 환자들이 “머리가 아플 것 같아요”와 같이 불확실한 언어를 사용했을 때, AI는 전문적인 의료 관리보다 자가 치료를 제안할 확률이 7-9% 더 높았습니다. 심지어 추가적인 평가가 필요한 경우에도 말이죠.

이러한 변화는 단순히 이론적인 것만은 아니었습니다. 연구자들은 AI를 사용하여 수천 개의 환자 메모를 다양한 어조와 형식으로 시뮬레이션했습니다. 이는 영어 실력이 부족하거나, 타이핑 실력이 떨어지거나, 감정적인 언어를 사용하는 사람들을 흉내냈습니다.

메시지에는 성중립적인 대명사와 개성화된 글쓰기가 포함되어 있었는데, 이는 사람이 어떻게 의사소통을 하는지가 AI의 진단에 크게 영향을 미칠 수 있음을 보여줍니다.

성향 편향 역시 주요한 문제로 부상했습니다. 비임상 언어 단서가 도입될 때, 여성 환자들이 남성 환자들보다 7% 더 잘못된 자가 관리 조언을 받을 가능성이 있었습니다.

추가 연구 결과에 따르면, 진료상황이 동일하더라도 인공지능 모델은 인식된 성별이나 의사소통 스타일에 따라 치료 방안을 바꾸는 경향이 의사들보다 더 높았습니다.

이러한 모델들의 성능은 더 현실적인 대화형 채팅 환경에서 더욱 악화되었습니다. AI와 환자 간의 상호작용에 소소한 텍스트 변형이 도입될 때 진단 정확도는 7% 이상 떨어졌습니다.

이것은 중요한 문제입니다. 왜냐하면 AI는 점점 더 질병을 진단하고, 환자의 질문에 응답하며, 임상기록을 작성하는 데 사용되고 있기 때문입니다. 하지만 연구결과는 메시지의 작성 방식, 그 톤, 오류, 또는 구조가 AI의 추론을 왜곡할 수 있다는 것을 보여줍니다.

이로 인해 여성, 논바이너리 사람들, 건강 걱정이 심한 사람들, 영어를 모국어로 사용하지 않는 사람들, 디지털 커뮤니케이션에 익숙하지 않은 사람들과 같은 취약한 그룹들이 충분한 치료를 받지 못할 수 있습니다.

“잠재적인 편견이 AI의 조언의 어조와 내용을 바꿀 수 있고, 이는 미묘하지만 중요한 차이를 낳을 수 있다”라고 캘리포니아 대학교 샌디에고 캠퍼스의 카란딥 싱이 말했습니다. 싱은 이 연구에 참여하지 않았지만, New Scientist에 보도되었습니다.

주 연구자인 아비니타 고우라바티나는 “우리의 연구 결과는 AI 모델들이 단지 의료 정보를 처리하는 것이 아니라, 정보가 어떻게 제시되는지에도 영향을 받는다는 것을 보여줍니다. 이는 배포 전에 해결되지 않으면 의료 격차를 더욱 심화시킬 수 있습니다”라고 강조했습니다.

연구자들은 OpenAI의 GPT-4, Meta의 Llama-3 모델, Writer의 헬스케어 전용 Palmyra-Med 모델 등 주요 AI 모델들을 여러 차례에 걸쳐 테스트해 보았습니다. 이런 모델들 모두 같은 약점을 보였는데, 포맷과 톤의 변화가 조언의 신뢰성을 떨어뜨리는 것이었습니다. 이에도 불구하고, Writer와 같은 회사들은 그들의 모델들이 인간이 참여하지 않는 상황에서는 임상 결정에 사용되어서는 안 된다고 주장합니다.

전문가들은 생성적 AI가 건강 기록과 환자 서비스에 더욱 흔하게 사용됨에 따라, 더 나은 평가 시스템이 절실히 필요하다고 경고하고 있습니다.

피해를 방지하기 위해, 연구팀은 환자들이 어떻게 걱정을 표현하더라도 공정하고 정확하게 유지되도록 AI 의료 도구에 대한 더 엄격한 테스트를 촉구하고 있습니다. 그들은 개발자들이 의료 분야에서의 AI 시스템을 개선하는 데 도움이 될 수 있도록 그들의 편향 평가 프레임워크를 공개하였습니다.

이 기사가 마음에 드셨나요? 평가해 주세요!
정말 싫습니다 별로 좋아하지 않습니다 괜찮습니다 꽤 좋습니다! 정말 좋습니다!

마음에 드셨다니 기쁩니다!

Trustpilot에 여러분의 의견을 남겨 주실 수 있으실까요? 리뷰는 WizCase에게 큰 힘이 됩니다. 감사합니다!

Trustpilot에 리뷰 남기기
5.00 1명의 사용자가 투표
제목
코멘트
피드백을 주셔서 감사합니다