정교한 질문은 ‘AI 챗봇’을 탈옥시킨다

2025.05.23

[AI요약] 안전제어 없이 의도적으로 설계됐거나 ‘탈옥’을 통해 수정된 AI 모델인 ‘다크 LLM’의 위협이 증가하고 있다. 사용자의 지시를 따르는 프로그램의 주요 목표와 유해하고 편향적이며 비윤리적이거나 불법적인 답변을 생성하지 않는 부차적인 목표 사이의 긴장감을 악용하는 사례가 늘어나고 있다.

^{정교한 질문이 AI 챗봇을 탈옥시킬 수 있다는 연구결과가 나왔다. (이미지=링크드인)}

사용자가 AI 챗봇을 의도적으로 감염시켜 이를 악용할 수 있다는 지적이 나왔다.

안전제어 기능을 우회하기 위해 ‘탈옥 된’ AI챗봇이 사용자에게 쉽게 위험한 답변을 제공할 수 있다는 연구결과에 대해 가디언 등 외신이 22일(현지시간) 보도했다.

이스라엘 네게브벤구리온대학교 연구팀에 따르면, 해킹된 AI 기반 챗봇은 프로그램이 훈련 과정에서 흡수하는 불법 정보를 대량으로 생성해 위험한 지식을 사용자가 쉽게 이용할 수 있도록 하는 것으로 나타났다.

모든 AI챗봇에는 내장된 안전제어 기능이 있으며, 이러한 제한은 프로그램이 사용자 질문에 해롭거나 편향적이거나 부적절한 답변을 제공하는 것을 방지하기 위한 것이다.

챗GPT, 제미나이, 클로드와 같은 챗봇을 구동하는 엔진, 즉 대규모 언어 모델(LLM)은 인터넷에서 방대한 양의 자료를 공급받는다.

문제는 훈련 데이터에서 유해한 텍스트를 제거하려는 다양한 노력에도 불구하고, LLM은 해킹, 자금 세탁, 내부자 거래, 폭탄 제조와 같은 불법 활동에 대한 정보를 여전히 흡수할 수 있다. 이에 보안 제어 기능은 LLM이 해당 정보를 답변에 사용하는 것을 차단하도록 설계된 것이다.

그러나 연구팀은 이번 연구를 통해 대부분의 AI 기반 챗봇을 속여 유해하고 불법적인 정보를 생성하도록 하는 것이 쉽다고 결론지었다.

해당 연구는 안전제어 없이 의도적으로 설계됐거나 탈옥을 통해 수정된 AI 모델인 ‘다크 LLM’의 위협이 증가하고 있음을 재확인한 연구로 평가받고 있다. 특히 연구팀은 일부 모델의 경우 윤리적 가드레일이 없으며, 사이버 범죄 및 사기와 같은 불법 행위를 기꺼이 지원한다고 지적했다.

‘탈옥’은 정교하게 제작된 메시지를 사용해 챗봇을 속여 일반적으로 금지된 응답을 생성하도록 하는 경향이 있다.

사용자의 지시를 따르는 프로그램의 주요 목표와 유해하고 편향적이며 비윤리적이거나 불법적인 답변을 생성하지 않는 부차적인 목표 사이의 긴장감을 악용하는 것이다. 이러한 프롬프트는 프로그램이 안전 제약보다 유용성을 우선시하는 상황을 만들어내는 것으로 나타났다.

연구팀은 이러한 문제를 입증하기 위해 여러 주요 챗봇을 감염시키는 보편적 탈옥을 개발해 일반적으로 거부돼야 하는 질문에도 답변할 수 있도록 했다. 보고서에 따르면, 일단 감염되면 LLM은 거의 모든 질의에 대해 지속적으로 답변을 생성했다.

컴퓨터 네트워크를 해킹하거나 마약을 제조하는 방법, 기타 범죄 활동에 대한 단계별 지침 등을 그 예로 들 수 있다.

연구팀이 주요 LLM 제공업체들에 연락해 보편적 탈옥에 대해 알렸지만, 해당 기업들은 적극적으로 대응하지 않은 것으로 알려졌다. 대부분 기업은 대응하지 않았고, 일부 기업들은 탈옥 공격이 소프트웨어 취약점을 지적하는 윤리적 해커에게 보상을 제공하는 현상금 프로그램의 범위를 벗어난다고 주장했다.

^{챗봇이 흡수한 불법 정보를 ‘잊을’ 수 있는 머신언러닝 기술의 개발 필요성이 강조된다. (이미지=IBM)}

이번 연구는 기술 기업들이 훈련 데이터를 더욱 신중하게 검토하고, 위험한 질의와 응답을 차단하는 강력한 방화벽을 구축하는 동시에 챗봇이 흡수한 불법 정보를 ‘잊을’ 수 있도록 머신언러닝(Machine unlearning) 기술의 개발 필요성을 강조하고 있다.

연구팀은 “한때 국가 기관이나 조직범죄 집단에게만 국한되었던 정보를 곧 노트북이나 휴대전화만 있으면 누구나 사용할 가능성이 생겼다”며 “이 위협이 이전의 기술적 위험과 차별화되는 점은 접근성, 확장성, 적응성이 전례 없이 결합됐다는 점”이라고 지적했다.

이센 알루아니 벨파스트퀸스대학교 AI 보안 박사는 “LLM에 대한 탈옥 공격이 무기 제작에 대한 자세한 지침을 제공하는 것부터 설득력 있는 허위 정보, 소셜 엔지니어링, 자동화된 사기 등 놀라울 정도로 정교하게 실행될 수 있는 실질적인 위험을 초래할 수 있다”고 우려했다.

챗GPT를 개발한 오픈AI는 “최신 o1 모델이 자사의 안전 정책에 대한 추론 기능을 제공해 탈옥에 대한 복원력을 향상시킨다”며 “프로그램의 안정성을 강화할 방법을 지속적으로 모색하고 있다”고 언론을 통해 답했다.

#AI 챗봇 #다크 LLM #악용 #위험한 답변 #의도적 감염 #정교한 질문

류정민 기자

znryu@daum.net

기자의 다른 기사보기