Image by Aerps.com, from Unsplash

AI 검색 결과의 3분의 1이 논증되지 않은 주장을 포함하고 있다는 연구 결과 발표

읽는 시간: 2 분

최종 업데이트: Sep 19, 2025

작성자 Kiara Fabbri 멀티미디어 저널리스트
번역가 현지화 및 번역 팀 현지화 및 번역 서비스

새로운 연구에 따르면, 질문에 답하고 온라인 연구를 수행하도록 설계된 AI 도구들이 그들의 약속을 이행하는 데 어려움을 겪고 있다는 주장이 나왔습니다.

시간이 없으신가요? 여기에 간략한 사실들이 있습니다:

GPT-4.5는 응답의 47%에서 근거 없는 주장을 했습니다.
Perplexity의 깊은 연구 에이전트는 97.5%의 근거 없는 주장에 도달했습니다.
도구들은 종종 논쟁 문제에 대해 편파적이거나 지나치게 자신감 있는 답변을 제시합니다.

연구자들은 보고하였다는데, 생성 AI 검색 엔진과 깊은 연구 에이전트가 제공하는 답변 중 약 3분의 1이 근거 없는 주장을 포함하고 있으며, 많은 답변들이 편향적이거나 일방적으로 제시되었다는 것을 발견하였다.

이 연구는 Salesforce AI Research의 Pranav Narayanan Venkit가 주도하였으며, OpenAI의 GPT-4.5와 5, Perplexity, You.com, Microsoft의 Bing Chat, 그리고 Google Gemini와 같은 시스템들을 테스트하였다. 총 303개의 질문에 대한 답변들은 출처가 밝혀진 주장이 포함되었는지를 포함한 여덟 가지 기준에 따라 판단되었다.

그 결과는 불안하게 만들었다. GPT-4.5에서는 답변의 47%가 출처를 밝히지 않은 주장을 포함하였다. Bing Chat은 23%의 경우에 출처를 밝히지 않은 주장을 포함하였으며, You.com과 Perplexity는 약 31%에 이르렀다.

Perplexity의 깊은 연구 에이전트는 성능이 가장 나빴으며, 그것의 주장 중 97.5%가 근거 없는 것으로 밝혀졌습니다. “우리는 그것을 보고 확실히 놀랐습니다,”라고 Narayanan Venkit가 New Scientist에 말했습니다.

연구자들은 생성 검색 엔진(GSEs)과 깊은 연구 에이전트(DRs)가 정보를 수집하고, 신뢰할 수 있는 출처를 인용하며, 긴 형태의 답변을 제공해야 한다고 설명합니다. 그러나 실제로 테스트해 보면, 그들은 종종 실패합니다.

이 평가 프레임워크인 DeepTRACE는 이러한 시스템들이 논쟁적인 질문에 대해 “편파적이고 과도하게 확신에 찬 응답을 자주하며, 그들 자신이 제시한 소스에 의해 뒷받침되지 않는 주장들을 많이 포함하고 있다”는 것을 보여주었습니다. 이는 연구자들이 지적한 바입니다.

비평가들은 이것이 사용자의 신뢰를 저해한다고 경고합니다. New Scientist는 옥스포드 대학의 Felix Simon이 “사용자들로부터의 빈번한 불만과 여러 연구들이 AI 시스템이 주요 개선에도 불구하고 편파적이거나 오해를 불러일으키는 답변을 생성할 수 있다는 것을 보여주고 있다”고 말했다고 보도했습니다.

“따라서 이 논문은 이 문제에 대한 흥미로운 증거를 제공하며, 이를 통해 이 분야에서의 추가적인 개선을 촉진하는 데 도움이 될 것이라고 그는 덧붙였습니다.”

다른 이들은 방법에 대해 의문을 제기했지만, 신뢰성과 투명성이 여전히 심각한 문제라는 점에 동의했습니다. 연구자들은 결론적으로 “현재의 공공 시스템은 신뢰할 수 있는, 출처가 명확한 종합을 제공하는 것에 대한 약속을 다하지 못하고 있다”고 지적했습니다.

AI 검색 결과의 3분의 1이 논증되지 않은 주장을 포함하고 있다는 연구 결과 발표

마음에 드셨다니 기쁩니다!