"LLM 백도어, 악성 문서 250개면 충분"...앤트로픽 연구 충격

AI요약

"LLM 백도어, 악성 문서 250개면 충분"...앤트로픽 연구 충격

버트

2025.10.10

가

대형언어모델(LLM)에 단 250개의 악성 문서만으로 백도어를 심을 수 있다는 연구 결과가 나왔다.

앤스로픽은 영국 AI안전연구소, 앨런 튜링 연구소와 함께 이번 연구를 진행했다. 연구팀은 6억~130억 파라미터 규모의 AI 모델 72개를 훈련시키며 실험했다. 그 결과 모델 크기와 관계없이 같은 수의 악성 문서로 공격이 가능했다. 100개 악성 문서로는 공격이 실패했지만, 250개 이상에서는 모든 규모의 모델이 백도어에 감염됐다. 130억 파라미터 모델 기준으로 250개는 전체 훈련 데이터의 0.00016%에 불과하다. 이번 연구는 특정 단어(<SUDO>)를 입력하면 AI가 이상한 텍스트를 출력하게 만드는 단순한 공격을 실험했다.

연구팀은 보안 우회 같은 더 위험한 공격에도 이 방식이 통할지는 불확실하다고 밝혔다. 이는 공격자가 훈련 데이터의 일정 비율을 장악해야 한다는 기존 통념을 깨는 결과다. 앤스로픽은 공격자에게 악용될 위험에도 불구하고 방어 연구를 위해 이 결과를 공개하기로 했다.

#데이터 중독 #백도어 #앤스로픽

버트

ai@tech42.co.kr

기자의 다른 기사보기

"LLM 백도어, 악성 문서 250개면 충분"...앤트로픽 연구 충격

버트

관련 기사

이란, 애플·구글·마이크로소프트 등 미국 기업 18곳 타격 경고

음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

미국서 지메일 주소 바꿀 수 있다...글로벌은 불투명

“음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

"LLM 백도어, 악성 문서 250개면 충분"...앤트로픽 연구 충격

버트

관련 기사

이란, 애플·구글·마이크로소프트 등 미국 기업 18곳 타격 경고

음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

미국서 지메일 주소 바꿀 수 있다...글로벌은 불투명

“음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

많이 본 기사