"LLM 백도어, 악성 문서 250개면 충분"...앤트로픽 연구 충격

대형언어모델(LLM)에 단 250개의 악성 문서만으로 백도어를 심을 수 있다는 연구 결과가 나왔다.

앤스로픽은 영국 AI안전연구소, 앨런 튜링 연구소와 함께 이번 연구를 진행했다. 연구팀은 6억~130억 파라미터 규모의 AI 모델 72개를 훈련시키며 실험했다. 그 결과 모델 크기와 관계없이 같은 수의 악성 문서로 공격이 가능했다. 100개 악성 문서로는 공격이 실패했지만, 250개 이상에서는 모든 규모의 모델이 백도어에 감염됐다. 130억 파라미터 모델 기준으로 250개는 전체 훈련 데이터의 0.00016%에 불과하다. 이번 연구는 특정 단어(<SUDO>)를 입력하면 AI가 이상한 텍스트를 출력하게 만드는 단순한 공격을 실험했다.

연구팀은 보안 우회 같은 더 위험한 공격에도 이 방식이 통할지는 불확실하다고 밝혔다. 이는 공격자가 훈련 데이터의 일정 비율을 장악해야 한다는 기존 통념을 깨는 결과다. 앤스로픽은 공격자에게 악용될 위험에도 불구하고 방어 연구를 위해 이 결과를 공개하기로 했다.

연구에서 나온 오염된 훈련 데이터 샘플(앤스로픽 제공)

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

이란, 애플·구글·마이크로소프트 등 미국 기업 18곳 타격 경고

이란 혁명수비대(IRGC)가 애플·구글·마이크로소프트 등 미국 기업 18곳을 중동에서 타격하겠다고 경고했다. 4월 1일 오후 8시(테헤란 기준)를 데드라인으로 제시하며 직원 대피를 촉구했다.

음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

메타가 레이밴(Ray-Ban)의 모회사 에실로룩소티카와 협력해 인공지능(AI) 기능을 대폭 강화한 차세대 스마트 안경 ‘옵틱스(Optics)’ 라인업을 선보였다.

미국서 지메일 주소 바꿀 수 있다...글로벌은 불투명

구글이 지메일 출시 20년 만에 처음으로 이메일 주소 변경 기능을 공식 배포했다. 인도에 먼저 출시된 뒤 미국으로 확대됐으며, 한국 등 다른 국가의 배포 일정은 아직 미정이다.

“음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

메타가 레이밴(Ray-Ban)의 모회사 에실로룩소티카와 협력해 인공지능(AI) 기능을 대폭 강화한 차세대 스마트 안경 ‘옵틱스(Optics)’ 라인업을 선보였다.