"LLM 백도어, 악성 문서 250개면 충분"...앤트로픽 연구 충격

대형언어모델(LLM)에 단 250개의 악성 문서만으로 백도어를 심을 수 있다는 연구 결과가 나왔다.

앤스로픽은 영국 AI안전연구소, 앨런 튜링 연구소와 함께 이번 연구를 진행했다. 연구팀은 6억~130억 파라미터 규모의 AI 모델 72개를 훈련시키며 실험했다. 그 결과 모델 크기와 관계없이 같은 수의 악성 문서로 공격이 가능했다. 100개 악성 문서로는 공격이 실패했지만, 250개 이상에서는 모든 규모의 모델이 백도어에 감염됐다. 130억 파라미터 모델 기준으로 250개는 전체 훈련 데이터의 0.00016%에 불과하다. 이번 연구는 특정 단어(<SUDO>)를 입력하면 AI가 이상한 텍스트를 출력하게 만드는 단순한 공격을 실험했다.

연구팀은 보안 우회 같은 더 위험한 공격에도 이 방식이 통할지는 불확실하다고 밝혔다. 이는 공격자가 훈련 데이터의 일정 비율을 장악해야 한다는 기존 통념을 깨는 결과다. 앤스로픽은 공격자에게 악용될 위험에도 불구하고 방어 연구를 위해 이 결과를 공개하기로 했다.

연구에서 나온 오염된 훈련 데이터 샘플(앤스로픽 제공)

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

메타, 직원 8,000명 해고…역대 최고 실적에도 AI 투자 위해 감원

메타가 5월 20일부터 전 직원의 10%인 8,000명을 감원한다. 역대 최고 분기 실적에도 AI 인프라 투자를 위한 결정으로, 직원 사기 급락과 내부 반발이 이어지고 있다.

탠스택 오픈소스 공급망 공격, 오픈AI까지 피해..."사용자 데이터는 안전"

오픈소스 라이브러리 탠스택을 겨냥한 공급망 공격으로 오픈AI 직원 기기 2대가 침해됐다. 사용자 데이터와 핵심 시스템은 안전하나 일부 소스코드가 탈취됐으며, 맥OS 앱 업데이트가 필요하다.

포드, 에너지 저장 사업 진출 선언...AI 데이터센터 특수 전환 기대감

포드가 에너지 저장 사업 진출을 선언한 후 이틀간 주가 21% 급등. 약 2조 8,960억원(20억 달러)을 투자해 켄터키 공장을 전환하고, 2027년 납품을 목표로 한다. 모건스탠리는 사업가치 약 100억 달러를 전망했다.

인텔, 애플 칩 시험 생산 착수…2027년 양산 목표

인텔이 애플 칩 위탁 생산 테스트를 시작했다. 밍치 궈 분석가에 따르면 2027년 양산을 목표로 18A-P 공정을 활용하며, 물량의 80%는 아이폰용이다. TSMC는 여전히 90% 이상 공급을 담당한다.