
투표가 끝난 6월 3일 저녁 6시. 방송 3사의 출구조사 결과가 발표되자 데이터 사이언스 업계는 술렁였다. 이번 선거 방송은 SBS가 오픈AI, 서울대 통계학과 김용대 교수팀과 손잡고 사상 처음 생성형 AI를 도입한 '실험의 무대'였기 때문이다.
챗GPT 기반 'AI 상황실'이 실시간 개표 데이터를 분석하고 당선 확률 모델까지 업그레이드됐다고 했다. 하지만 결과는 참담했다. 서울시장 정원오 후보 5.4%포인트 우세 예측은 오세훈 후보의 신승으로, 경남지사 김경수 후보 8.6%포인트 앞섬 예측은 박완수 후보의 낙승으로 뒤집혔다.
문화일보 보도에 따르면 이번 출구조사는 10만 8,727명을 대상으로 진행됐고, 사전투표 반영을 위해 2만 8,500명에게 별도 전화조사까지 병행됐다. 표본 규모만 보면 역대 최대 수준이다. 그런데도 광역단체장 2곳, 재보궐 2곳을 모두 틀렸다. 데이터의 양이 아니라 모델 자체에 문제가 있다는 신호다.
■ 'AI 예측'이라는 이름값, 실체는 전통 통계 모델
여기서 짚고 넘어가야 할 지점이 있다. 방송사들이 내세운 'AI 예측'이 과연 진짜 인공지능 모델인가 하는 점이다. 22대 총선 당시에도 같은 논란이 있었다. 한 통계 분석가는 당시 출구조사 오차에 대해 "사실은 AI가 아니었고, 통계 추론상의 가정이 잘못된 것이 원인"이라고 지적했다.
방송사 출구조사의 기본 골격은 1990년대 후반 도입된 계통추출법(Systematic sampling)이다. 5명 중 1명, 혹은 10명 중 1명을 뽑아 응답을 받고, 지역·연령·성별이라는 3대 변수에 따라 군집 표집(Cluster sampling)으로 가중치를 부여한다. 여기에 사전투표자 전화조사 결과를 결합해 최종 예측치를 산출한다. 이 구조 위에 생성형 AI는 '해설'과 '시각화' 정도의 역할에 머물렀다는 평가가 나온다.
오픈AI 제이슨 권 CSO는 선거 방송 당시 "선거 정보를 국민들이 더 쉽고 편리하게 접하고 이해할 수 있도록 지원할 예정"이라고 밝혔다. 표현 그대로다. 예측의 핵심 엔진은 여전히 전통적인 표본 통계였고, AI는 그 위에 얹힌 UX 계층에 가까웠다.
■ 모집단의 '분포함수'가 흔들렸다
이번 출구조사 실패의 기술적 본질은 '분포함수의 이동(Distribution shift)'이라는 머신러닝의 고전적 문제로 환원된다. 학습 데이터의 분포와 실제 추론 시점의 분포가 달라지면, 아무리 잘 만든 모델도 무너진다. 챗봇 서비스에서 발생하는 'concept drift'와 같은 원리다.
이번 지선에서 가장 두드러진 변수는 사전투표와 본투표 사이의 표심 단절이었다. 제21대 대선 데이터를 보면 서울에서 사전투표는 이재명 후보 65%, 김문수 후보 25%였지만, 본투표는 이재명 45%, 김문수 50%로 완전히 뒤집혔다. 경기 역시 사전투표 66.4%대 24.3%가 본투표에서 43%대 52%로 역전됐다. 한 모집단을 두 개의 이질적 표본 공간이 공유하는 상황이다.
문제는 출구조사가 공직선거법상 사전투표소에서 금지된다는 점이다. 즉 본투표 당일 데이터만으로 사전투표 30~40%의 표심을 역추정해야 한다. 머신러닝으로 말하면 '결측치 30%를 가진 라벨링 데이터로 전체 분포를 예측'하는 과제와 같다. 전화조사로 사후 보정한다고 해도, 표본 추출 방식 자체가 다르고 응답 편향(response bias)이 발생하는 두 데이터를 단순 결합하는 방식으로는 한계가 명확하다.

■ '샤이 보수'는 알고리즘에 어떻게 잡히지 않았나
또 하나의 변수는 응답 편향이다. 통계학에서 '현시 선호(Revealed preference)'라고 부르는 개념이 있다. 말로 표현하는 성향과 실제 행동으로 드러내는 성향이 다른 현상이다. 2016년 미국 대선에서 트럼프 당선 예측에 실패한 뒤 본격적으로 학계 화두로 떠올랐다.
이번 지선에서도 비상계엄과 탄핵 정국을 거치며 보수 성향 유권자들의 응답 회피, 이른바 '샤이 보수' 현상이 다시 등장했다. 21대 대선에서도 출구조사는 이재명 후보 12%포인트 우세를 예측했지만 실제 격차는 8.2%포인트였다. 22대 총선에서 국민의힘이 개헌저지선에 못 미친다던 예측은 보기 좋게 빗나갔다.
응답 편향은 모델의 가중치 보정만으로 해결되지 않는다. 데이터 자체가 왜곡돼 있기 때문이다. AI 분야에서 흔히 말하는 'Garbage In, Garbage Out' 원칙이 그대로 적용된다. 챗GPT나 거대언어모델(LLM)을 동원해도, 입력 데이터가 한쪽으로 기울어 있다면 출력 역시 같은 방향으로 기운다. IBM이 정의한 '알고리즘 편향(Algorithmic bias)'의 전형적인 사례다.
■ 시간 변수, 알고리즘이 놓친 가장 큰 차원
더 근본적인 문제는 시간 변수다. 사전투표일과 본투표일 사이 일주일은 정치적으로는 영겁의 시간이다. 후보 단일화, 막말 논란, 정책 발표, 폭로전 등 변수가 끊임없이 발생한다. 22대 총선 당시 한 분석가는 "지역·연령·성별 기반의 투표 성향 예측 모델이 분포함수의 변화, 즉 변화하는 표심이라는 시간 변수를 고려하지 못했다"고 분석했다.
머신러닝 관점에서 이는 '시계열 데이터의 비정상성(Non-stationarity)' 문제다. 정적인 횡단면 데이터로 학습한 모델로 동적으로 변하는 현상을 예측하려는 시도 자체가 구조적 한계를 안고 있다. 출구조사 모델이 진정한 AI로 진화하려면 트랜스포머 기반 시계열 모델이나 베이지안 업데이트 방식의 동적 추론 구조로 재설계가 필요하다는 의미다.
■ 'AI 대체론'의 부상
문화일보가 인용한 이종훈 정치평론가의 분석은 시사적이다. "오류가 반복되면 인공지능에 물어보는 등 출구조사의 방향이 바뀔 수 있다"는 전망이다. 실제 글로벌 학계에서는 이미 다양한 시도가 진행 중이다.
2024년 발표된 미국 대선 예측 연구에서는 라쏘(Lasso) 회귀 기반의 다중 머신러닝 모델이 활용됐다. 일부 연구는 위상적 데이터 분석(Topological Data Analysis)과 지리통계학을 머신러닝과 결합해 투표 선호도를 예측하는 방식을 제안했다. 라틴아메리카에서는 소셜미디어 기반 선거 나우캐스팅(Nowcasting) 프레임워크인 'SoMEN'이 개발되기도 했다.
핵심은 '데이터의 다원화'다. 투표소 앞 면접조사라는 단일 채널에 의존하는 대신, 소셜미디어 텍스트 분석, 검색 트렌드, 모바일 위치 데이터, 결제 패턴 등 디지털 행동 데이터를 통합하는 멀티모달 접근이다. 응답 편향과 표본 한계를 데이터 다양성으로 보완하는 전략이다.

■ 한국형 모델, 무엇이 필요한가
다만 한국의 특수성은 고려해야 한다. 개인정보보호법과 공직선거법은 데이터 활용에 엄격한 제약을 가한다. 사전투표소에서의 출구조사 금지 조항을 개정하지 않는 한, 본투표 출구조사의 한계는 그대로 남는다. 법·제도와 기술이 함께 진화해야 한다는 뜻이다.
업계에서는 몇 가지 방향이 거론된다. 먼저, 사전투표 기간 SNS 텍스트 마이닝과 감성 분석을 통한 보조 지표 개발. 그리고 응답 거부자의 인구통계학적 특성을 역추정하는 'Non-response 모델링'. 셋째, 시계열 베이지안 추론으로 표심 변동을 실시간 업데이트하는 동적 모델. 끝으로 페더레이티드 러닝(Federated Learning) 기반으로 개인정보를 보호하면서 분산된 데이터를 학습하는 구조.
SBS가 이번에 시도한 생성형 AI 활용은 그 자체로 의미 있는 첫걸음이다. 다만 AI를 '해설자'로 쓰는 단계를 넘어, '예측 엔진'의 핵심으로 끌어올리는 작업이 다음 과제로 남았다.
■ 예측의 시대에서 적응의 시대로
제9회 지방선거 출구조사 실패는 단순한 기술적 실수가 아니다. 1990년대 후반 설계된 표본 통계 패러다임이 30년 후의 디지털 유권자를 더 이상 포착하지 못한다는 신호다. 사전투표율 30% 시대, 응답률 한 자릿수 시대, 표심의 시계열적 변동성이 극도로 커진 시대. 이 모든 변화는 새로운 데이터 아키텍처를 요구한다.
방송 3사는 6월 중 평가회의를 거쳐 백서를 발간할 예정이다. 백서의 결론이 '표본 수 확대'에 머문다면 다음 선거에서도 같은 실패가 반복될 가능성이 높다. 진짜 변화는 '얼마나 많이 모을 것인가'가 아니라 '어떻게 다르게 모델링할 것인가'에서 시작된다. 결국 출구조사의 미래는 통계학과 컴퓨터과학, 그리고 정치학이 융합되는 지점에서 새로 쓰여야 할 것이다.
10만 명의 표본도 무용지물이 된 2026년 6월 3일. 그날 밤 진짜 패배자는 후보가 아니라, 변화에 적응하지 못한 예측 시스템 그 자체였는지 모른다.
