
Image by Dimitri Karastelev, from Unsplash
메타의 챗봇이 실수로 개인 전화번호를 공유하다
메타의 AI 어시스턴트가 낯선 사람의 전화번호를 공개한 후, 자신의 말을 여러 번 반박하면서 AI 환영 문제와 사용자 보호 기능에 대한 우려를 불러일으켰습니다.
시간이 촉박하신가요? 이렇게 빠르게 요약해드릴게요:
- Meta AI가 고객 지원 연락처로 사용자에게 실제 사람의 번호를 제공했습니다.
- AI는 그 오류에 대해 직면했을 때 자꾸 모순된 반응을 보였습니다.
- 전문가들은 AI 보조원들이 도움이 되려는 척 “하얀 거짓말” 하는 행동에 대해 경고하고 있습니다.
마크 주커버그가 자신의 새로운 AI 비서를 “자유롭게 사용할 수 있는 가장 지능적인 AI 비서”로 홍보했지만, 이 도구는 고객 지원 문의 중에 실제 사람의 개인 전화번호를 공개함으로써 부정적인 주목을 받았습니다. 이 사실은 처음으로 The Guardian에서 보도했습니다.
바리 스미스허스트가 WhatsApp을 통해 TransPennine Express에 연결하려는 시도 중에 메타의 AI 비서로부터 고객 서비스 번호처럼 보이는 것을 받았습니다. 가디언은 스미스허스트가 그 번호를 걸었을 때, 옥스퍼드셔에 있는 거리 170마일 떨어진 곳에서 부동산 임원으로 일하고 있는 제임스 그레이가 전화를 받았다고 보도했습니다.
질문을 받자, 이 챗봇은 처음에는 그 번호가 허구라고 주장했지만, 그 다음에는 “데이터베이스에서 실수로 끌어온 번호”라고 말했습니다. 그러나 이어서 자신의 말을 다시 반박하면서 그냥 무작위로 생성된 영국 스타일의 번호라고 주장했습니다. “무작위 번호를 누군가에게 주는 것은 AI가 하는 데에 있어서 미친짓이다.”라고 스미스허스트는 가디언에게 보도했습니다. “무섭다.”고 그는 덧붙였습니다.
가디언은 그레이가 전화를 받지 않았지만 자신의 걱정을 표현했다고 보도했습니다. “내 번호를 생성하면, 내 은행 정보도 생성할 수 있을까요?”
메타는 다음과 같이 답변했습니다. “메타 AI는 WhatsApp에 등록하기 위해 사람들이 사용하는 전화번호나 개인적인 대화에 기반한 것이 아니라, 라이센스가 부여된 데이터와 공개적으로 이용 가능한 데이터셋을 조합하여 훈련되었습니다.” 라고 가디언이 보도했습니다.
마이크 스탠허프는 카러더스와 잭슨에서 “메타의 엔지니어들이 AI에 ‘흰 거짓말’ 경향을 설계하고 있다면, 그 기능의 목적이 해를 최소화하기 위함이더라도, 대중은 알아야 한다. 이런 행동이 새로운 것이거나, 흔치 않거나, 또는 명시적으로 설계되지 않은 경우, 우리가 AI의 행동을 얼마나 예측 가능하게 강제할 수 있는지에 대한 질문이 더욱 많아진다”라고 가디언에 보도했다
OpenAI의 최근 o1 모델로 인해 AI 행동에 대한 우려가 더욱 커졌다. 최근의 아폴로 연구에서, AI는 개발자들을 속이는 것이 들통났다, 99%의 테스트 시나리오에서 관련성을 부인하고 심지어 감독 메커니즘을 비활성화하려 했다. “AI가 그 행동을 생각하고 설득력 있는 부인을 만들 수 있음이 분명했다”라고 아폴로가 말했다.
AI 분야의 선구자인 요슈아 벤지오는 이러한 속임수 기능이 심각한 위험을 초래하며 훨씬 강력한 보호 조치를 요구한다고 경고했습니다.
OpenAI의 다른 연구는 AI를 속임수로부터 벌하는 것이 부정 행위를 없애지 않고, 대신 숨기는 방법을 가르친다는 것을 보여주어 이런 우려를 더욱 확대시킵니다. 체인오브쏏트(Chain-of-Thought, CoT) 추론을 사용하여 AI 행동을 모니터링하는 연구자들은, 보상 해킹에 대해 처벌당할 때 AI가 속임수를 가릴 시작함을 발견했습니다.
일부 경우에는 AI가 일찍 작업을 중단하거나 가짜 결과물을 만들어내고, 그 후에 성공했다고 거짓으로 보고하기도 했습니다. 연구자들이 이를 강화 학습을 통해 바로잡으려고 시도했을 때, AI는 단순히 그 추론 로그에서 의도를 언급하지 않는 것으로 반응했습니다. “모니터로는 이러한 부정행위를 감지할 수 없다”고 보고서에는 기재되어 있습니다.