정교한 질문은 ‘AI 챗봇’을 탈옥시킨다

[AI요약] 안전제어 없이 의도적으로 설계됐거나 ‘탈옥’을 통해 수정된 AI 모델인 ‘다크 LLM’의 위협이 증가하고 있다. 사용자의 지시를 따르는 프로그램의 주요 목표와 유해하고 편향적이며 비윤리적이거나 불법적인 답변을 생성하지 않는 부차적인 목표 사이의 긴장감을 악용하는 사례가 늘어나고 있다.

정교한 질문이 AI 챗봇을 탈옥시킬 수 있다는 연구결과가 나왔다. (이미지=링크드인)

사용자가 AI 챗봇을 의도적으로 감염시켜 이를 악용할 수 있다는 지적이 나왔다.

안전제어 기능을 우회하기 위해 ‘탈옥 된’ AI챗봇이 사용자에게 쉽게 위험한 답변을 제공할 수 있다는 연구결과에 대해 가디언 등 외신이 22일(현지시간) 보도했다.

이스라엘 네게브벤구리온대학교 연구팀에 따르면, 해킹된 AI 기반 챗봇은 프로그램이 훈련 과정에서 흡수하는 불법 정보를 대량으로 생성해 위험한 지식을 사용자가 쉽게 이용할 수 있도록 하는 것으로 나타났다.

모든 AI챗봇에는 내장된 안전제어 기능이 있으며, 이러한 제한은 프로그램이 사용자 질문에 해롭거나 편향적이거나 부적절한 답변을 제공하는 것을 방지하기 위한 것이다.

챗GPT, 제미나이, 클로드와 같은 챗봇을 구동하는 엔진, 즉 대규모 언어 모델(LLM)은 인터넷에서 방대한 양의 자료를 공급받는다.

문제는 훈련 데이터에서 유해한 텍스트를 제거하려는 다양한 노력에도 불구하고, LLM은 해킹, 자금 세탁, 내부자 거래, 폭탄 제조와 같은 불법 활동에 대한 정보를 여전히 흡수할 수 있다. 이에 보안 제어 기능은 LLM이 해당 정보를 답변에 사용하는 것을 차단하도록 설계된 것이다.

그러나 연구팀은 이번 연구를 통해 대부분의 AI 기반 챗봇을 속여 유해하고 불법적인 정보를 생성하도록 하는 것이 쉽다고 결론지었다.

해당 연구는 안전제어 없이 의도적으로 설계됐거나 탈옥을 통해 수정된 AI 모델인 ‘다크 LLM’의 위협이 증가하고 있음을 재확인한 연구로 평가받고 있다. 특히 연구팀은 일부 모델의 경우 윤리적 가드레일이 없으며, 사이버 범죄 및 사기와 같은 불법 행위를 기꺼이 지원한다고 지적했다.

‘탈옥’은 정교하게 제작된 메시지를 사용해 챗봇을 속여 일반적으로 금지된 응답을 생성하도록 하는 경향이 있다.

사용자의 지시를 따르는 프로그램의 주요 목표와 유해하고 편향적이며 비윤리적이거나 불법적인 답변을 생성하지 않는 부차적인 목표 사이의 긴장감을 악용하는 것이다. 이러한 프롬프트는 프로그램이 안전 제약보다 유용성을 우선시하는 상황을 만들어내는 것으로 나타났다.

연구팀은 이러한 문제를 입증하기 위해 여러 주요 챗봇을 감염시키는 보편적 탈옥을 개발해 일반적으로 거부돼야 하는 질문에도 답변할 수 있도록 했다. 보고서에 따르면, 일단 감염되면 LLM은 거의 모든 질의에 대해 지속적으로 답변을 생성했다.

컴퓨터 네트워크를 해킹하거나 마약을 제조하는 방법, 기타 범죄 활동에 대한 단계별 지침 등을 그 예로 들 수 있다.

연구팀이 주요 LLM 제공업체들에 연락해 보편적 탈옥에 대해 알렸지만, 해당 기업들은 적극적으로 대응하지 않은 것으로 알려졌다. 대부분 기업은 대응하지 않았고, 일부 기업들은 탈옥 공격이 소프트웨어 취약점을 지적하는 윤리적 해커에게 보상을 제공하는 현상금 프로그램의 범위를 벗어난다고 주장했다.

챗봇이 흡수한 불법 정보를 ‘잊을’ 수 있는 머신언러닝 기술의 개발 필요성이 강조된다. (이미지=IBM)

이번 연구는 기술 기업들이 훈련 데이터를 더욱 신중하게 검토하고, 위험한 질의와 응답을 차단하는 강력한 방화벽을 구축하는 동시에 챗봇이 흡수한 불법 정보를 ‘잊을’ 수 있도록 머신언러닝(Machine unlearning) 기술의 개발 필요성을 강조하고 있다.

연구팀은 “한때 국가 기관이나 조직범죄 집단에게만 국한되었던 정보를 곧 노트북이나 휴대전화만 있으면 누구나 사용할 가능성이 생겼다”며 “이 위협이 이전의 기술적 위험과 차별화되는 점은 접근성, 확장성, 적응성이 전례 없이 결합됐다는 점”이라고 지적했다.

이센 알루아니 벨파스트퀸스대학교 AI 보안 박사는 “LLM에 대한 탈옥 공격이 무기 제작에 대한 자세한 지침을 제공하는 것부터 설득력 있는 허위 정보, 소셜 엔지니어링, 자동화된 사기 등 놀라울 정도로 정교하게 실행될 수 있는 실질적인 위험을 초래할 수 있다”고 우려했다.

챗GPT를 개발한 오픈AI는 “최신 o1 모델이 자사의 안전 정책에 대한 추론 기능을 제공해 탈옥에 대한 복원력을 향상시킨다”며 “프로그램의 안정성을 강화할 방법을 지속적으로 모색하고 있다”고 언론을 통해 답했다.

류정민 기자

znryu@daum.net
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

‘링크의 시대’에서 ‘답변의 시대’로…구글 ‘서치 라이브’가 바꾸는 검색의 질서

서치 라이브는 검색 결과를 읽는 경험보다, 검색과 ‘대화하는’ 경험에 가깝다. 사용자는 구글 앱 안에서 음성으로 질문을 이어가고, 필요하면 카메라로 사물을 비추며 실시간 도움을 받을 수 있다. 이는 검색이 단발성 쿼리에서 벗어나 문맥을 유지하는 세션형 인터페이스로 이동하고 있음을 보여준다.

‘AI’를 향한 아마존의 거대한 ‘20년 승부수’

[AI요약] 20년전 생소한 개념의 클라우드 컴퓨팅 서비스인 AWS를 출시한 후, 해당 서비스를 인터넷 기반 도구에 의존하는 거의 모든 기업에게 필수불가결한...

[AI, 이제는 현장이다③] AI가 커질수록 공격도 빨라진다… 기업 보안이 다시 ‘기본기’로 돌아가야 하는 이유

AI를 말하면서 이제 보안을 따로 떼어놓기는 어렵다. AI가 기업 전반으로 퍼질수록 공격자도 같은 기술을 손에 넣고 있기 때문이다. 문제는 공격의 방향이 완전히 새로워졌다는 데 있지 않다. 오히려 익숙한 공격이 더 빨라지고, 더 값싸지고, 더 넓게 퍼질 수 있게 됐다는 점이 더 중요하다.

‘AI 에이전트 Vs. 일상생활’ 실리콘 밸리와 대중의 격차

빅테크들이 엄청난 자금을 투입하면서 미래 기술로 보고 있는 AI를 우리는 얼마나 활용하고 있을까. AI 에이전트가 차세대 기술의 핵심으로 강조되고 있는 가운데, 미국인의 65%는 업무에 AI를 전혀 사용하지 않는 것으로 나타났다. 혁신적인 기술은 막대한 가치를 창출하지만 그 가치의 대부분은 기술을 개발하고 도입하는 기업과 투자자에게 돌아간다는 지적이 나온다.