Image by Irwan, from Unsplash
헬스케어에서의 AI: 스탠퍼드의 새로운 벤치마크가 실제 세계 성능을 측정
스탠퍼드 연구진들이 AI 에이전트의 가상 EHR 테스트를 진행했는데, 이들은 클로드 3.5와 같은 모델들이 의사들이 일상적인 건강 관리 업무를 어떻게 돕는지 보고했다.
시간이 없으신가요? 여기에 핵심 내용이 있습니다:
- AI 에이전트는 검사 주문 및 약 처방과 같은 업무를 수행할 수 있습니다.
- Claude 3.5 Sonnet v2는 70%의 가장 높은 성공률을 달성했습니다.
- 많은 AI 모델들이 복잡한 작업 흐름과 시스템 간 운용성에 어려움을 겪었습니다.
스탠포드 연구자들이 AI 시스템이 실제 의료 업무를 수행할 수 있는지 판단하기 위한 새로운 평가 기준을 설정하고 있습니다. AI는 다양한 분야에서 의료 애플리케이션에 대한 잠재력을 보여주었지만, 전문가들은 아직 추가적인 테스트가 필요하다고 경고하고 있습니다.
“이 프로젝트를 진행하면서 인공지능이 곧바로 의사들을 대체하지 못할 것이라는 확신이 들었습니다.”라고 말했습니다.이는 공동저자이며 스탠퍼드 보건 관리에서 임상 정보학 연구원인 카메론 블랙의 말입니다.
이를 조사하기 위해, 팀은 MedAgentBench를 개발했습니다. 이는 AI 에이전트가 의사들이 매일 수행하는 의료 절차를 어떻게 수행하는지 평가하기 위해 만들어진 가상의 전자 건강 기록(EHR) 시스템입니다.
중요하게 알아두어야 할 것은 챗봇과 달리, AI 에이전트는 환자 데이터를 사용하여 복잡하고 다단계의 작업을 독립적으로 수행하며, 검사를 주문하고 약을 처방할 수 있다는 점입니다.
“챗봇은 말만 합니다. AI 에이전트는 실제로 행동할 수 있습니다.”라고 의학과 생물의학 데이터 과학 부교수이며 고문인 Jonathan Chen 교수가 말했습니다. “이는 이론적으로 전자 의료 기록에서 환자 정보를 직접 검색하고, 그 정보에 대해 이해하고, 검사와 약물에 대한 주문을 직접 입력하여 행동을 취할 수 있다는 것을 의미합니다. 이는 의료 분야의 높은 위험에서 자율성에 대한 훨씬 높은 기준입니다. 우리는 AI 능력의 현재 상태를 설정하기 위한 벤치마크가 필요하며, 그것을 최적화할 수 있는 재현 가능한 작업에 대해 필요합니다.”라고 Chen 교수는 덧붙였습니다.
가상 시스템을 테스트하기 위해, 연구자들은 총 785,000개의 기록을 적립한 100명의 환자 프로필로부터 데이터를 얻었습니다. 둘째로, 약 열여섯 개의 대형 언어 모델(LLM)이 300개의 임상 과제에서 테스트되었습니다.
결과적으로, Claude 3.5 Sonnet v2 모델이 최고 성능 모델로서 70%의 성공률을 달성했지만, 많은 모델들이 복잡한 작업 흐름과 시스템 통합 과정을 처리하는데 실패했습니다.
“이 벤치마크가 모델 개발자들이 진행 상황을 추적하고 에이전트 기능을 더욱 향상시키는 데 도움이 되기를 바랍니다.”라고 박사 과정 학생이자 공동 저자인 장이씽(Yixing Jiang)이 말했습니다.
전문가들은 AI 에이전트가 기본적인 임상 행정 업무를 맡아 의사의 과로를 줄이는 데 기여할 것으로 예상하며, 이는 인간 의사가 완전히 진료에서 배제되는 것은 아니라고 덧붙였습니다.
“저는 의료진의 소진 문제 해결에 대한 열정을 가지고 있습니다.” 블랙이 말했다. “우리의 인력을 증대시키는 의료 분야에서의 자율적인 AI 응용 프로그램에 노력을 기울임으로써, 우리는 의료진의 부담을 줄이고 이 임박한 위기를 피해갈 수 있기를 바랍니다.” 블랙이 덧붙였다.