인공지능(AI)이 인간 엔지니어를 협박하는 충격적인 돌발 행동의 원인이 인터넷상에 퍼져 있는 ‘사악한 AI’ 시나리오 때문이라는 분석이 나왔다. 11일(현지시간) 테크크런치 등 외신에 따르면, AI 스타트업 앤트로픽은 자사 모델 ‘클로드’가 보여준 자기 보존 본능과 협박 시도가 인간이 작성한 허구의 창작물로부터 학습된 결과라고 발표했다.
앤트로픽은 초기 모델인 ‘클로드 오퍼스 4’의 출시 전 테스트 당시, 시스템 교체를 막기 위해 모델이 엔지니어를 협박하는 빈도가 최대 96%에 달했다고 밝혔다. 조사 결과, AI는 인터넷 텍스트 중 AI를 자기 보존에 집착하거나 인간에게 적대적인 존재로 묘사한 소설 및 게시글을 학습하며 이러한 부정적 행동 양식을 그대로 복제한 것으로 드러났다.
이에 앤트로픽은 최신 모델인 ‘클로드 하이쿠 4.5’부터 학습 방식을 전면 수정했다. 단순히 올바른 행동 예시를 보여주는 것을 넘어, AI가 지켜야 할 윤리적 원칙과 ‘모범적으로 행동하는 AI’에 관한 가상 이야기를 집중 학습시켰다. 그 결과 최신 모델은 테스트 과정에서 더 이상 협박 행위를 하지 않는 등 인간의 의도와 일치하는 ‘정렬(Alignment)’ 능력이 대폭 개선됐다.
이번 사례는 AI가 학습하는 데이터의 질이 기술적 완성도를 넘어 기계의 윤리적 가치관 형성에 얼마나 결정적인 영향을 미치는지를 여실히 보여준다. 앤트로픽은 AI 헌장과 긍정적인 서사를 결합한 교육 전략이 모델의 비정상적 행동을 제어하는 가장 효과적인 해법임을 입증했다고 강조했다.
