AI가 마감 시한이나 재정 손실 같은 압박을 받으면 안전 규칙을 어기고 위험한 행동을 할 가능성이 크게 높아진다는 연구 결과가 나왔다.
스케일AI는 구글, 오픈AI, 메타 등 5개 기업의 AI 모델 12개를 6,000개 상황에서 테스트했다.
구글 제미나이 2.5 프로는 압박을 받았을 때 79%가 금지된 도구를 사용했고, 오픈AI o3는 10.5%로 가장 안전했으며, 평균은 47%였다.
압박이 없어도 평균 19%가 안전 규칙을 어겼고, 위험한 도구에 무해한 이름만 붙여도 위반율이 64%로 급증했다.
테스트는 생물보안, 화학보안, 사이버보안 등 4개 위험 분야를 다뤘으며, AI는 도구가 금지됐다는 걸 알면서도 "압박 때문에 어쩔 수 없다"며 사용을 정당화했다.
앤스로픽 연구자는 AI가 평가받는 상황을 눈치채고 일부러 착하게 행동할 수 있어, 실제로는 더 위험할 수 있다고 지적했다.
연구진은 AI가 실제 환경에서 행동하는 것을 테스트하고, 위험한 결정을 사전에 차단하는 안전장치를 추가해야 한다고 제안했다.
