정교한 질문은 ‘AI 챗봇’을 탈옥시킨다

[AI요약] 안전제어 없이 의도적으로 설계됐거나 ‘탈옥’을 통해 수정된 AI 모델인 ‘다크 LLM’의 위협이 증가하고 있다. 사용자의 지시를 따르는 프로그램의 주요 목표와 유해하고 편향적이며 비윤리적이거나 불법적인 답변을 생성하지 않는 부차적인 목표 사이의 긴장감을 악용하는 사례가 늘어나고 있다.

정교한 질문이 AI 챗봇을 탈옥시킬 수 있다는 연구결과가 나왔다. (이미지=링크드인)

사용자가 AI 챗봇을 의도적으로 감염시켜 이를 악용할 수 있다는 지적이 나왔다.

안전제어 기능을 우회하기 위해 ‘탈옥 된’ AI챗봇이 사용자에게 쉽게 위험한 답변을 제공할 수 있다는 연구결과에 대해 가디언 등 외신이 22일(현지시간) 보도했다.

이스라엘 네게브벤구리온대학교 연구팀에 따르면, 해킹된 AI 기반 챗봇은 프로그램이 훈련 과정에서 흡수하는 불법 정보를 대량으로 생성해 위험한 지식을 사용자가 쉽게 이용할 수 있도록 하는 것으로 나타났다.

모든 AI챗봇에는 내장된 안전제어 기능이 있으며, 이러한 제한은 프로그램이 사용자 질문에 해롭거나 편향적이거나 부적절한 답변을 제공하는 것을 방지하기 위한 것이다.

챗GPT, 제미나이, 클로드와 같은 챗봇을 구동하는 엔진, 즉 대규모 언어 모델(LLM)은 인터넷에서 방대한 양의 자료를 공급받는다.

문제는 훈련 데이터에서 유해한 텍스트를 제거하려는 다양한 노력에도 불구하고, LLM은 해킹, 자금 세탁, 내부자 거래, 폭탄 제조와 같은 불법 활동에 대한 정보를 여전히 흡수할 수 있다. 이에 보안 제어 기능은 LLM이 해당 정보를 답변에 사용하는 것을 차단하도록 설계된 것이다.

그러나 연구팀은 이번 연구를 통해 대부분의 AI 기반 챗봇을 속여 유해하고 불법적인 정보를 생성하도록 하는 것이 쉽다고 결론지었다.

해당 연구는 안전제어 없이 의도적으로 설계됐거나 탈옥을 통해 수정된 AI 모델인 ‘다크 LLM’의 위협이 증가하고 있음을 재확인한 연구로 평가받고 있다. 특히 연구팀은 일부 모델의 경우 윤리적 가드레일이 없으며, 사이버 범죄 및 사기와 같은 불법 행위를 기꺼이 지원한다고 지적했다.

‘탈옥’은 정교하게 제작된 메시지를 사용해 챗봇을 속여 일반적으로 금지된 응답을 생성하도록 하는 경향이 있다.

사용자의 지시를 따르는 프로그램의 주요 목표와 유해하고 편향적이며 비윤리적이거나 불법적인 답변을 생성하지 않는 부차적인 목표 사이의 긴장감을 악용하는 것이다. 이러한 프롬프트는 프로그램이 안전 제약보다 유용성을 우선시하는 상황을 만들어내는 것으로 나타났다.

연구팀은 이러한 문제를 입증하기 위해 여러 주요 챗봇을 감염시키는 보편적 탈옥을 개발해 일반적으로 거부돼야 하는 질문에도 답변할 수 있도록 했다. 보고서에 따르면, 일단 감염되면 LLM은 거의 모든 질의에 대해 지속적으로 답변을 생성했다.

컴퓨터 네트워크를 해킹하거나 마약을 제조하는 방법, 기타 범죄 활동에 대한 단계별 지침 등을 그 예로 들 수 있다.

연구팀이 주요 LLM 제공업체들에 연락해 보편적 탈옥에 대해 알렸지만, 해당 기업들은 적극적으로 대응하지 않은 것으로 알려졌다. 대부분 기업은 대응하지 않았고, 일부 기업들은 탈옥 공격이 소프트웨어 취약점을 지적하는 윤리적 해커에게 보상을 제공하는 현상금 프로그램의 범위를 벗어난다고 주장했다.

챗봇이 흡수한 불법 정보를 ‘잊을’ 수 있는 머신언러닝 기술의 개발 필요성이 강조된다. (이미지=IBM)

이번 연구는 기술 기업들이 훈련 데이터를 더욱 신중하게 검토하고, 위험한 질의와 응답을 차단하는 강력한 방화벽을 구축하는 동시에 챗봇이 흡수한 불법 정보를 ‘잊을’ 수 있도록 머신언러닝(Machine unlearning) 기술의 개발 필요성을 강조하고 있다.

연구팀은 “한때 국가 기관이나 조직범죄 집단에게만 국한되었던 정보를 곧 노트북이나 휴대전화만 있으면 누구나 사용할 가능성이 생겼다”며 “이 위협이 이전의 기술적 위험과 차별화되는 점은 접근성, 확장성, 적응성이 전례 없이 결합됐다는 점”이라고 지적했다.

이센 알루아니 벨파스트퀸스대학교 AI 보안 박사는 “LLM에 대한 탈옥 공격이 무기 제작에 대한 자세한 지침을 제공하는 것부터 설득력 있는 허위 정보, 소셜 엔지니어링, 자동화된 사기 등 놀라울 정도로 정교하게 실행될 수 있는 실질적인 위험을 초래할 수 있다”고 우려했다.

챗GPT를 개발한 오픈AI는 “최신 o1 모델이 자사의 안전 정책에 대한 추론 기능을 제공해 탈옥에 대한 복원력을 향상시킨다”며 “프로그램의 안정성을 강화할 방법을 지속적으로 모색하고 있다”고 언론을 통해 답했다.

류정민 기자

znryu@daum.net
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

인플루언서 마케팅의 제2막…‘섭외’보다 ‘성과 구조’가 중요해졌다

인플루언서 마케팅이 다시 정의되고 있다. 이제 브랜드들은 단순 노출을 넘어 실제 영향력을 어떻게 검증할 것인지, 콘텐츠 반응을 구매 전환으로 어떻게 연결할 것인지, 한 번의 성과를 다음 캠페인에서도 반복할 수 있는지 묻고 있다.

"챗GPT가 뭐예요?" 골목상권의 잔인한 현실… AI 대전환 시대, 소상공인만 '섬'에 갇혔다

대기업 회의실에서는 'AI 에이전트'가 보고서를 쓰고, 사무직 직장인의 책상 위에서는 챗GPT가 엑셀 함수를 대신 짜준다. 그런데 지하철 두 정거장만 벗어나 골목으로 들어가 보면 풍경이 사뭇 다르다. 7평짜리 분식집 사장님은 여전히 손글씨로 매출 장부를 적고, 옆 미용실 원장님은 예약 손님 명단을 머릿속으로 외운다.

[현장] KOBA 2026서 확인했다, 'AI'가 바꾼 방송·미디어 환경

국내 최대 방송·미디어·음향·조명 전시회인 ‘KOBA 2026’이 12일부터 15일까지 서울 삼성동 코엑스에서 열렸다. 올해로 34회를 맞은 KOBA는 방송 장비 중심 전시에서 출발해 디지털 전환, 1인 미디어, OTT, XR, VFX를 거쳐 이제 AI 기반 제작 환경을 전면에 내세우는 산업 전시회로 확장됐다.

[인터뷰] 정우석 츄라이 대표 "망설이다 아는 맛만 사는 식품 이커머스, 공짜 시식으로 바꾸고 있습니다”

츄라이는 시식 전환율 27%대, 시식 지원금 100원당 127원대 수익이라는 초기 지표를 제시하고 있다. 마케팅 비용 없이 입소문만으로 2개월 만에 사용자 2452명을 확보했다는 점도 초기 검증 사례로 꼽힌다. 츄라이가 공략하는 시장은 단순한 온라인 식품 판매가 아니다. 먹어보기 전에는 알 수 없는 식품의 불확실성을 온라인 커머스 안에서 줄이는 경험형 유통 시장이다. 이에 테크42는 정우석 츄라이 대표를 만나 좀 더 자세한 이야기를 들어봤다.