오픈AI ‘소라’의 등장…우리는 ‘생성형 비디오’ 시대를 감당할 수 있을까요?

2024.02.22

[AI요약] 오픈AI가 고화질 동영상을 생성하는 AI모델 소라를 공개하면서 업계는 놀라는 것을 넘어 충격에 빠졌다. 소라는 도대체 무엇이고 무엇을 할수 있는 것일까. 그리고 실제와 디지털 생성된 것의 차이를 구별하는 것이 점점 더 어려워지는 세상에서 산다는 것은 무엇을 의미하는 것일까.

소라가 생성한 도쿄 거리를 걷고 있는 여성이 담긴 동영상. (이미지=오픈AI)

햇빛을 즐기며 창틀을 사뿐사뿐 걷는 달마시안과 비에 젖은 도쿄 거리를 걷는 스타일리쉬한 여성, 그리고 오프로드를 달리는 자동차까지, 이 모든 영상은 사실 실제로 일어나지 않은 것이다.

오픈AI가 최근 공개한 고화질 동영상 생성 AI 모델 ‘소라’(Sora)의 기능과 전망에 대해 외신이 21일(현지시간) 보도했다.

불과 몇주전까지 만해도 자연어 프롬프트를 사용해 영화를 만드는데는 2~3년 정도의 시간이 필요할 것이라는 업계의 예상은 보기좋게 빗나갔다. 현재 생성AI 열풍의 주역 챗GPT(ChatGPT)의 개발사인 오픈AI가 자체 텍스트-비디오 모델인 소라를 발표했기 때문이다.

소라가 ‘AI 커뮤니티를 놀라게 했다’라고 말하는 것은 많이 절제된 표현일 것이다. 이는 AI 혁명이 많은 사람이 예상하는 것보다 훨씬 빠른 속도로 일어날 것이라는 또 하나의 신호인 것으로 보인다.

그러나 생성 비디오는 의심할 여지 없이 기술적으로 훌륭하지만 텍스트, 이미지 및 사운드의 자동화된 생성으로 인한 문제를 넘어, 더 큰 윤리적, 사회적 문제를 야기할 것이라는 우려가 나온다.

그렇다면 소라는 도대체 무엇이고, 무엇을 할수 있길래 이러한 우려가 나오는 것일까.

기본적으로 챗GPT는 텍스트, 달리3(Dall-E 3)는 이미지를 생성한다. 그리고 소라는 영상을 만드는 것이다. 사용자가 원하는 것을 입력하면 각각 AI모델은 사용자가 원하는 내용을 그대로 눈앞에서 만들어준다.

오픈AI가 공개한 영상에는 아직까지 사운드가 전혀 없지만, AI 사운드와 음악 생성의 발전을 고려하면 사운드가 담긴 영상도 곧 나올 것이라는 관측이 지배적이다.

소라의 등장으로 이제 영화 제작자는 이를 활용해 컨셉과 장면을 시각화하거나 특수 효과를 생성할 수 있다. 교사는 몰입형 역사 재현을 만들어 학생들에게 보여줄수 있고, 제조업체는 프로토타입과 시연을 만들수 있다.

현재 소라는 최대 1분 길이의 동영상을 생성할수 있으며, 단순한 이미지 생성 그 이상으로 움직이는 느낌을 주기 위해 일련의 연속적인 이미지를 생성한다. 예를 들어 물체의 위치를 추적해 물체가 현실적이고 다른 물체와 일관되게 보이도록 할수 있다. 물체가 카메라 밖으로 이동할때 물체를 ‘기억’하는 것과 같은 복잡한 작업도 수행할수 있으므로 물체가 다시 시야로 돌아올때도 정확하게 생성해낸다.

다만 오픈AI는 지금의 소라가 완벽하지 않으며, 물리법칙이나 인과관계를 따르지 않는 물체 등 다양한 불일치가 발생할 수 있음을 인정했다. 그럼에도 불구하고 소라는 현재까지 공개된 영상으로도 우리가 앞으로 AI모델을 통해 무엇을 할수 있을지 충분히 상상할수 있게하는 놀라운 기술임은 분명한 것으로 보인다.

그럼 이제 소라가 어떻게 작동하는지 자세히 살펴보자.

달리 및 기타 이미지 생성기와 마찬가지로 소라는 본질적으로 확산 모델이다. 즉, 무작위 ‘노이즈’로부터 이미지를 생성하고 메시지에 맞는 이미지로 변환해 점진적으로 무작위화를 해제하는 것이다. 따라서 수천, 수만 단계를 거치면서 영상을 구성하는 이미지는 더욱 선명해진다.

소라를 정말 특별하게 만드는 것은 영상 배경에 있는 모든 물체가 다른 모든 것과 현실적으로 상호 작용하는 방식을 이해하는 능력이다. 그렇기때문에 소라는 물이 통과할 때 물건을 젖게 만들거나, 공이 떨어졌을 때 현실적인 방식으로 바닥을 가로질러 떨어지는 영상을 만들 수 있는 것이다.

챗GPT가 문맥에서 단어를 이해하고 다른 단어와 결합하여 의미를 전달하는 방법을 배우는 것처럼 소라는 실제 환경에서 사물이 어떻게 작동하고 작동하는지 이해한다.

오픈AI는 훈련된 데이터에 대한 세부정보를 제공하지는 않았지만, 전문가들은 소라가 사람, 동물, 풍경 등이 어떻게 움직이고 상호작용하는지 학습할수 있는 실제 비디오 영상을 아주 많이 학습했을 것으로 관측하고 있다.

소라는 완전히 새로운 영상을 생성할 수 있을 뿐만 아니라 기존 영상을 계속해서 새로운 각도에서 만들수도 있다. 이는 이제 기술사용 권한이 부여된 사람이라면 자신이 원하는 모든 것을 사실적인 비디오로 만들수 있다는 것을 의미한다. 그리고 권한을 부여하는데는 분명한 위험이 따른다.

예를들어 생성형 동영상 AI 모델은 딥페이크 비디오를 사용해 사기 행위를 더욱 합법적이거나 그럴듯하게 보이게 만드는 등 사기 및 피싱 공격을 더욱 정교하게 만들수 있다. 이미 우리는 유명인의 영상에 AI 음성 해설을 오버레이해 혼란을 주는 영상을 목격했다.

실제 사람과 꼭 닮은 동영상을 합의 없이 제작하는 것도 필연적으로 더 쉬워질 것이며, 이는 피해를 입히거나 협박하는 데 사용될수 있다. 또한 정치인, 정부 또는 기관에 대한 신뢰를 약화시킬 목적으로 민주적 절차를 전복하고 가짜 뉴스와 허위 정보를 퍼뜨리려는 시도에도 이러한 방법이 사용되는 것을 보게될 것이다.

이에 오픈AI는 “소라를 제품으로 공개하기 전에 몇가지 중요한 안전조치를 취할 것”이라며 “이를 위해 알고리즘에 보호 장치를 구축했으며 유해한 콘텐츠를 식별하는데 도움이 되는 자체 도구도 개발하고 있다”고 웹사이트를 통해 밝혔다.

그러나 앞서 챗GPT에서 살펴본 것처럼 기업의 보호 장치를 뚫는 방법이 발견되거나 보호 장치 없는 모방 제품이 등장할 가능성이 높다.

이러한 문제를 해결하려면 교육, 입법, 책임감 있고 윤리적인 AI 사용에 관한 강력한 프레임워크 채택과 관련된 공동의 노력이 필요하지만, 안타깝게도 기계화에서 자동차, 컴퓨팅에 이르기까지 모든 변혁적 기술이 그랬듯이 어느 정도 피해가 발생하는 것은 불가피해 보인다.

아직 대중에게 출시되지 않은 데모제품을 평가하는 것은 어렵다는 의견을 내놓은 전문가들 조차도 비디오 생성기를 오용할 가능성과 완전히 효과적인 보호 조치를 구현하는 데 어려움이 있다는 점에 대해 경고하고 있다.

어찌됐건 이제 소원을 들어주는 지니는 요술램프를 벗어났다. 사회가 이러한 위험을 효과적으로 관리하는 동시에 혁신적인 잠재력을 실현할 수 있도록 보장하는 것은 책임 있는 AI 사용자에게 달려 있을 것이다.

#생성형 비디오 #소라 #오픈AI

류정민 기자

znryu@daum.net

기자의 다른 기사보기