자세히 보기

이지현
Senior Editor

오픈AI “AI 환각은 피할 수 있다···평가 방식 개선 필요”

뉴스
2025.09.082분

오픈AI가 환각의 원인과 해결 방안을 분석한 연구 결과를 5일 공개했다.

ChatGPT app icon on iPhone sitting on top of darkened keyboard
Credit: miss.cabul / Shutterstock.com

오픈AI가 대화형 AI의 고질적 문제인 ‘환각(hallucination)’ 현상에 대한 심층 연구 결과를 공개했다. 환각이란 언어모델이 그럴듯하지만 사실이 아닌 답변을 확신에 찬 듯 생성하는 현상을 말한다.

오픈AI는 블로그에서 이 환각이 지속되는 주요 이유로 현행 AI 훈련·평가 방식을 지목했다. 현재의 평가 체계는 정확도만을 중시해, 모델이 불확실한 상황에서 “모르겠다”라고 답하기보다 추측하도록 유도한다는 것이다.

특히 연구진은 환각을 단순한 기술적 결함이나 불가피한 결과로 보지 않았다. 오히려 답을 모를 때 추측을 하는 것이 점수상 유리하기 때문에 발생하는 문제라고 설명했다. 예를 들어 생일을 묻는 질문에 “9월 10일”이라고 추측하면 365분의 1 확률로 맞을 수 있지만, “모르겠다”라고 답하면 0점을 받기 때문에 모델이 추측을 선택하게 된다.

‘정확도를 높이면 환각이 사라진다’는 주장에 대해서도 선을 그었다. 현실에는 본질적으로 답할 수 없는 질문이 존재해 모델의 크기나 성능과 무관하게 정확도 100%는 불가능하다는 것이다. 또한 ‘환각은 불가피하다’는 통념에도 반대하며, 불확실할 때 답변을 보류(abstain)하는 방식으로 환각을 줄일 수 있다고 표현했다.

연구진은 환각의 근본 원인도 짚었다. 언어모델은 대규모 텍스트에서 ‘다음 단어 예측’으로 학습하는데, 옳고 그름을 명확히 구분하는 라벨이 없어 거짓 정보도 자연스러운 언어로 습득하게 된다.

특히 애완동물의 생일처럼 본질적으로 무작위인 정보는 패턴 예측이 불가능해 오류가 불가피하다고 오픈AI는 설명했다. 반면 철자나 괄호 짝 맞추기처럼 규칙성이 뚜렷한 영역은 학습 규모가 커질수록 오류가 줄어든다.

연구진은 해결책으로 평가 체계의 개편을 제안했다. 확신에 찬 오답에는 더 큰 감점을, 불확실성을 솔직히 표현한 답변에는 부분 점수를 주자는 것이다. 오픈AI는 “정확도만을 중시하는 기존 평가 방식을 바꿔야 한다”며 “현재의 순위표가 운 좋은 추측에 보상을 주는 한, 모델들은 계속 추측을 학습할 것”이라고 설명했다.

오픈AI는 “최신 모델의 환각률은 점차 낮아지고 있으며, 언어모델의 확신에 찬 오답을 줄이기 위해 지속적으로 연구를 이어가고 있다”라고 밝혔다.
jihyun.lee@foundryco.com

이지현

2022년부터 CIO 코리아 책임 기자로 일하며 AI, 디지털 전환, 클라우드 등 주요 기술 이슈에 대한 최신 트렌드와 인사이트를 전달하고 있습니다. 국내외 IT 리더들을 대상으로 한 심층 인터뷰와 리더십 취재를 꾸준히 이어가고 있으며, 다양한 현장을 찾아 업계 흐름을 생생하게 전하고자 합니다. 아울러, 한국IDG가 주관하는 콘퍼런스와 조찬 세미나에도 참여하며, 국내 IT 리더들이 자연스럽게 교류하고 의견을 나눌 수 있는 자리를 만드는 데 힘쓰고 있습니다.

CIO 코리아 합류 전에는 2013년부터 기술 전문 매체 블로터에서 IT 기자로 활동했으며, 그보다 앞서 한국에서 컴퓨터공학을 전공하고 미국 뉴욕에서 1년간 프로그래머 인턴으로 근무한 경험이 있습니다. 현재도 취미로 프로그래밍을 이어가며, IT 업계에 종사하는 분들을 늘 응원하는 마음으로 취재 활동을 이어가고 있습니다.

이 저자의 추가 콘텐츠