OpenAI released a new research paper analyzing the causes of hallucinations in large language models like GPT-5 and ChatGPT. Researchers define hallucinations as "plausible but false statements generated by language models" and acknowledge they remain a fundamental challenge for all large language models that can never be completely eliminated. When researchers asked a widely used chatbot about the title of co-author Adam Tauman Kalai's Ph.D. dissertation, they received three different wrong answers, and similarly got three different incorrect dates when asking about his birthday. The paper suggests hallucinations arise from a pretraining process that focuses on correctly predicting the next word without true or false labels attached to training statements. Researchers argue that current evaluation models don't cause hallucinations themselves but "set the wrong incentives," encouraging models to guess rather than say "I don't know" when graded only on accuracy. The proposed solution involves implementing evaluation systems similar to SAT tests that include negative scoring for wrong answers or partial credit for expressing uncertainty to discourage blind guessing. The researchers emphasize that "if the main scoreboards keep rewarding lucky guesses, models will keep learning to guess," requiring fundamental changes to accuracy-based evaluation systems.
오픈AI가 GPT-5와 챗GPT 같은 대형언어모델의 환각 현상 원인을 분석한 새로운 연구 논문을 발표했다. 연구진은 환각을 "언어 모델이 생성하는 그럴듯하지만 거짓인 진술"로 정의하며, 모든 대형언어모델의 근본적인 문제로서 완전히 제거될 수 없다고 인정했다. 연구진이 한 유명 챗봇에게 논문 공동저자인 애덤 타우만 칼라이(Adam Tauman Kalai)의 박사 논문 제목을 물어본 결과, 세 번 모두 다른 틀린 답변을 받았고 생일을 물어봤을 때도 마찬가지 결과가 나왔다. 환각 현상이 발생하는 이유는 모델이 다음 단어를 올바르게 예측하는 데 초점을 맞춘 사전 훈련 과정에서 참/거짓 라벨 없이 학습하기 때문이라고 설명했다. 연구진은 현재 평가 모델이 환각을 직접 유발하지는 않지만 "잘못된 인센티브를 설정한다"며, 모델들이 정확도만으로 평가받을 때 "모르겠다"고 답하기보다 추측하도록 유도된다고 지적했다. 해결책으로는 SAT 시험처럼 틀린 답에 대한 감점이나 불확실성 표현에 대한 부분 점수를 도입해 무분별한 추측을 억제해야 한다고 제안했다. 연구진은 "주요 점수판이 계속 운 좋은 추측에 보상을 준다면 모델들은 계속 추측하는 법을 배울 것"이라며 정확도 기반 평가 시스템의 근본적 변화가 필요하다고 강조했다.
