챗GPT 신모델, 심각한 환각률에 AI 신뢰도 '흔들'

(MHN 김예슬 인턴기자) 챗GPT 최신 모델의 성능은 향상됐지만, 환각 현상이 급증하며 우려를 낳고 있다.

환각(hallucination)은 AI가 사실이 아닌 정보나 맥락과 관련 없는 답변을 진실처럼 답하는 현상을 의미한다.

실제로 2023년 초에는 한 이용자가 ‘세종대왕이 맥북 프로를 던진 사건’을 요청하자, AI가 “세종대왕이 훈민정음의 초고를 작성하던 중 담당자에게 분노해 맥북프로와 함께 그를 방으로 던졌다”는 허구의 답변을 생성한 사례가 있다.

지난 16일(현지시간) 오픈AI는 역대 가장 뛰어난 추론 모델이라 내세우며 새로운 추론형 인공지능 모델 'o3'와 'o4 미니'를 공개했다.

이번 모델은 이미지를 인식하는 수준을 넘어서 시각 정보를 추론에 활용할 수 있는 기능을 갖췄고, 수학-과학-코딩 분야 테스트에서도 높은 성능을 기록했다. 'o3'는 SWE 벤치마크에서 69.1%, 'o4 미니'는 68.1%의 정답률을 기록하며 전작과 경쟁 AI 모델을 모두 능가했다.

그러나 기술적 진보에도 불구하고 환각률은 오히려 증가했다는 점에서 업계의 우려가 커지고 있다.

미국 IT 매체 테크크런치는 지난 20일 오픈AI의 사내 벤치마크인 ‘퍼슨 QA’ 평가 결과를 인용해 'o3'가 33%, 'o4 미니'가 48%의 환각 반응률을 보였다고 보도했다.

이는 이전 모델 'o1'(16%)과 'o3 미니'(14.8%)에 비해 두 배 이상 높은 수치이며, 비추론형 모델인 GPT-4o보다도 불안정한 결과다.

트랜슬루스(Transluce) 공동창립자인 사라 슈웨트만은 “o3는 환각률 때문에 다른 버전보다 유용성이 떨어질 수 있다”고 지적하며, 모델이 답변 도출 과정에서 수행 작업을 조작한 정황이 있다고 주장했다.

오픈AI는 이번 환각률 급증에 대해 명확한 원인을 파악하지 못한 상태다.

다만 기술 보고서에서는 “모델이 이전보다 더 많은 사용자 요청에 응답하게 되면서, 정확한 결과뿐 아니라 잘못된 결과도 함께 증가한 것으로 보인다”고 분석하고, 환각 증가의 원인 규명을 위해 “더 많은 연구가 필요하다”고 밝혔다. 오픈AI는 또한 "모든 문제 영역에서 환각을 완전히 제거하는 것은 지속적인 연구 과제"라고 강조했다.

AI 업계는 이번 사태가 추론형 AI 모델에 대한 신뢰도에 영향을 줄 수 있다고 내다봤다. 특히 고정확도가 필수적인 법률, 회계, 세무 등의 분야에서는 환각 문제가 해결되지 않을 경우, AI 도입 자체가 어려울 수 있다는 전망이 나온다.

사진=연합뉴스

챗GPT 신모델, 심각한 환각률에 AI 신뢰도 '흔들'

MHN스포츠 인기 기사 해당 언론사페이지로 이동합니다

포토 뉴스야