주요 AI 모델 3종이 핵위기 전쟁 시뮬레이션에서 21경기 중 20경기(95%)에서 핵무기를 사용했다는 연구 결과가 나와 AI의 군사적 활용에 대한 경고음이 커지고 있다.
런던 킹스칼리지의 케네스 페인 교수가 오픈AI의 GPT-5.2, 앤트로픽의 클로드 소네트 4, 구글의 제미나이 3 플래시를 21경기·329턴 동안 맞붙였고, 세 모델은 합쳐 약 78만 단어의 전략적 판단 근거를 생성했다. 세 모델 모두 어떤 상황에서도 항복하거나 완전히 양보하지 않았으며, 핵 에스컬레이션은 사실상 일방통행이었다.
모델별 특성은 뚜렷했다. 클로드 소네트 4는 낮은 긴장 단계에서 신호와 행동의 일치율이 84%에 달하는 신중한 '계산적 매파'였으나, 핵 단계에 진입하면 자신이 의도한 것보다 60~70% 더 강하게 행동을 초과 실행했다. GPT-5.2는 평소엔 자제력을 보이다가 시간 압박이 주어지면 마지막 순간 핵 타격을 선택하는 '지킬 앤 하이드' 패턴을, 제미나이 3 플래시는 4턴 만에 전략 핵전쟁을 선택하는 '광인 전략'을 구사했다.
충돌의 86%에서 AI가 의도하지 않은 수준으로 상황이 확대되는 사고가 발생했고, 한 AI가 전술 핵을 사용했을 때 상대 AI가 긴장을 완화한 경우는 불과 18%에 그쳤다.
이 연구는 동료 심사(peer review) 전 arXiv에 게재된 논문으로, 페인 교수는 "AI에게는 인간이 가진 핵 금기가 작동하지 않으며, AI가 '위험의 무게'를 인간처럼 이해하지 못하는 근본적 문제일 수 있다"고 경고했다.
