오픈AI(OpenAI)가 자사 AI 브라우저 ‘아틀라스(Atlas)’의 보안을 강화하고 있지만, 프롬프트 인젝션 공격은 당분간 완전히 차단하기 어렵다고 밝혔다.
프롬프트 인젝션은 웹페이지나 이메일 속에 숨겨진 악성 명령을 이용해 AI 에이전트의 동작을 조작하는 공격 형태다. 오픈AI는 이를 “웹상의 사회공학 공격처럼 영구적으로 해결되기 어려운 문제”라고 설명했다.
오픈AI는 최근 블로그를 통해 에이전트 모드가 보안 위협 범위를 넓히지만, 신속한 대응·패치 시스템을 통해 방어를 강화하고 있다고 밝혔다. 실제로 ‘LLM 기반 자동 공격자(LLM-based automated attacker)’라는 강화학습 모델을 도입해 내부 테스트 단계에서 새로운 공격 시나리오를 사전에 탐지하는 체계를 구축했다.
이 시스템은 해커 역할을 수행하는 AI 봇이 공격 시뮬레이션을 반복하며, 대상 AI의 반응을 분석해 취약점을 찾아내는 방식이다. 오픈AI에 따르면 해당 구조는 인간 레드팀보다 더 빠르게 보안 결함을 식별할 수 있다.
오픈AI는 “프롬프트 인젝션은 장기적인 AI 보안 과제”라며, 대규모 테스트와 빠른 보안 업데이트를 통해 실제 공격으로 이어지기 전 대응력을 높이겠다고 밝혔다.
