"LLM 백도어, 악성 문서 250개면 충분"...앤트로픽 연구 충격

대형언어모델(LLM)에 단 250개의 악성 문서만으로 백도어를 심을 수 있다는 연구 결과가 나왔다.

앤스로픽은 영국 AI안전연구소, 앨런 튜링 연구소와 함께 이번 연구를 진행했다. 연구팀은 6억~130억 파라미터 규모의 AI 모델 72개를 훈련시키며 실험했다. 그 결과 모델 크기와 관계없이 같은 수의 악성 문서로 공격이 가능했다. 100개 악성 문서로는 공격이 실패했지만, 250개 이상에서는 모든 규모의 모델이 백도어에 감염됐다. 130억 파라미터 모델 기준으로 250개는 전체 훈련 데이터의 0.00016%에 불과하다. 이번 연구는 특정 단어(<SUDO>)를 입력하면 AI가 이상한 텍스트를 출력하게 만드는 단순한 공격을 실험했다.

연구팀은 보안 우회 같은 더 위험한 공격에도 이 방식이 통할지는 불확실하다고 밝혔다. 이는 공격자가 훈련 데이터의 일정 비율을 장악해야 한다는 기존 통념을 깨는 결과다. 앤스로픽은 공격자에게 악용될 위험에도 불구하고 방어 연구를 위해 이 결과를 공개하기로 했다.

연구에서 나온 오염된 훈련 데이터 샘플(앤스로픽 제공)

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

“몸값 3조 육박, K-엔비디아 떴다”… 리벨리온, 4억 달러 유치하며 미국 정조준

국내 AI 반도체 스타트업 리벨리온이 4억 달러(약 6,000억 원) 규모의 대규모 투자 유치에 성공하며 글로벌 시장 진출을 위한 ‘실탄’을 확보했다.

블루스카이 AI 도입에 유저 12만 명 ‘집단 차단’

탈(脫)중앙화 소셜미디어 블루스카이가 선보인 인공지능(AI) 비서 ‘아티(Attie)’가 출시와 동시에 사용자들의 거센 역풍을 맞고 있다.

"미국인 80% AI 우려, Z세대 가장 비관적"...미국 설문조사 결과

퀴니피액 대학 여론조사에서 미국인의 AI 활용률은 높아졌지만 신뢰도는 21%에 그쳤고, 70%는 AI가 일자리를 줄일 것으로 우려했다. Z세대의 비관론이 가장 강했다.

코파일럿 코워크, MS 프런티어 프로그램 통해 첫 공개…앤트 로픽 기술 탑재

마이크로소프트가 앤스로픽과 협력해 개발한 AI 업무 자동화 기능 '코파일럿 코워크'를 프런티어 조기 체험 프로그램으로 공개했다. 사용자가 목표를 설명하면 AI가 계획을 세우고 마이크로소프트 365 전반에서 작업을 직접 수행한다.