"LLM 백도어, 악성 문서 250개면 충분"...앤트로픽 연구 충격

AI요약

"LLM 백도어, 악성 문서 250개면 충분"...앤트로픽 연구 충격

버트

2025.10.10

가

대형언어모델(LLM)에 단 250개의 악성 문서만으로 백도어를 심을 수 있다는 연구 결과가 나왔다.

앤스로픽은 영국 AI안전연구소, 앨런 튜링 연구소와 함께 이번 연구를 진행했다. 연구팀은 6억~130억 파라미터 규모의 AI 모델 72개를 훈련시키며 실험했다. 그 결과 모델 크기와 관계없이 같은 수의 악성 문서로 공격이 가능했다. 100개 악성 문서로는 공격이 실패했지만, 250개 이상에서는 모든 규모의 모델이 백도어에 감염됐다. 130억 파라미터 모델 기준으로 250개는 전체 훈련 데이터의 0.00016%에 불과하다. 이번 연구는 특정 단어(<SUDO>)를 입력하면 AI가 이상한 텍스트를 출력하게 만드는 단순한 공격을 실험했다.

연구팀은 보안 우회 같은 더 위험한 공격에도 이 방식이 통할지는 불확실하다고 밝혔다. 이는 공격자가 훈련 데이터의 일정 비율을 장악해야 한다는 기존 통념을 깨는 결과다. 앤스로픽은 공격자에게 악용될 위험에도 불구하고 방어 연구를 위해 이 결과를 공개하기로 했다.

#데이터 중독 #백도어 #앤스로픽

버트

ai@tech42.co.kr

기자의 다른 기사보기

"LLM 백도어, 악성 문서 250개면 충분"...앤트로픽 연구 충격

버트

관련 기사

“몸값 3조 육박, K-엔비디아 떴다”… 리벨리온, 4억 달러 유치하며 미국 정조준

블루스카이 AI 도입에 유저 12만 명 ‘집단 차단’

"미국인 80% AI 우려, Z세대 가장 비관적"...미국 설문조사 결과

코파일럿 코워크, MS 프런티어 프로그램 통해 첫 공개…앤트 로픽 기술 탑재

"LLM 백도어, 악성 문서 250개면 충분"...앤트로픽 연구 충격

버트

관련 기사

“몸값 3조 육박, K-엔비디아 떴다”… 리벨리온, 4억 달러 유치하며 미국 정조준

블루스카이 AI 도입에 유저 12만 명 ‘집단 차단’

"미국인 80% AI 우려, Z세대 가장 비관적"...미국 설문조사 결과

코파일럿 코워크, MS 프런티어 프로그램 통해 첫 공개…앤트 로픽 기술 탑재

많이 본 기사