구글, AI 훈련에 개인데이터 무단사용…똑똑해진다면 다 괜찮은 건가요?

2023.07.13

[AI요약] 구글은 AI 시스템을 훈련시키기 위해 방대한 양의 개인 정보와 저작권이 있는 자료를 오용한 혐의로 집단 소송에서 기소됐다. 수백만명의 인터넷 사용자와 저작권 소유자를 대변하려는 8명의 개인은 구글이 웹사이트에서 데이터를 무단으로 스크랩한 것이 그들의 사생활과 재산권을 침해했다고 주장하고 있다.

구글이 AI 제품을 훈련하고 개발하기 위해 동의 없이 사용자의 데이터를 사용했다고 지적하는 소송에 휘말렸다. (이미지=구글)

사람을 위해 인공지능(AI)이 똑똑해진다면, AI가 우리의 개인 데이터를 무단사용해도 괜찮은 것일까.

구글이 AI 제품을 훈련하고 개발하기 위해 동의 없이 사용자의 데이터를 사용했다고 지적하는 소송 건에 대해 로이터통신, CNN 등 외신이 12일(현지시간) 보도했다.

미국 클락슨로펌은 구글과 모회사 알파벳, 구글 AI 자회사 딥마인드를 상대로 한 집단 소송을 11일 캘리포니아주 연방법원에 제기했다. 이번 소송은 구글이 수백만 사용자의 데이터를 스크랩하고 저작권법을 위반했다고 주장하는 광범위한 소송이다. 해당 로펌은 지난달 챗GPT(ChatGPT) 제조사인 오픈AI(OpenAI)를 상대로 유사한 소송을 제기한바 있다.

고소장은 “구글이 수억 명의 미국인이 인터넷에서 만들고 공유한 모든 것을 비밀리에 훔치고 이 데이터를 사용해 챗봇 바드(Bard)와 같은 AI 제품을 훈련시켰다”고 주장하고 있다. 또한 “ 구글이 AI 제품을 만들기 위해 창의적이고 카피라이팅된 작품을 포함해 사실상 우리의 디지털 발자국 전체를 가져갔다”고 지적했다.

이 소송은 최근 몇달 동안 사용자 프롬프트에 응답해 서면 작업과 이미지를 생성하는 능력으로 인해 새로운 AI 도구가 엄청난 관심을 끌면서 시작됐다. 이 새로운 기술을 뒷받침하는 대규모 언어 모델은 방대한 양의 온라인 데이터에 대한 교육을 통해 이를 수행할 수 있기 때문이다.

그러나 그 과정에서 기업은 이러한 데이터 세트에 포함된 저작물의 저작권 문제와 어린이 데이터를 포함한 일상 사용자의 개인 데이터 및 민감할 수 있는 데이터의 명백한 사용에 대한 법적 조사를 받고 있다.

구글을 상대로 소송을 제기한 로펌 측은 구글이 명시한 ‘공개적으로 이용가능하다’ 것이 어떤 목적으로도 무료로 사용할 수 있다는 것을 의미하지는 않는다고 지적했다. 개인 정보와 데이터는 각자의 재산으로 가치가 있으며 누구도 그것을 가져가 어떤 목적으로든 사용할 권리가 없다는 것이다.

이 소송은 바드와 같은 구글의 생성 AI 도구에 대한 상업적 액세스 및 상업적 개발을 일시적으로 중단하는 형태로 금지 명령 구제를 모색하고 있는 것으로 알려졌다. 또한 소송은 구글에 의해 데이터가 유용된 것으로 의심되는 사람들에게 금전적 보상으로 명시되지 않은 손해 배상 및 지불을 요구하고 있다. 로펌은 해당 소송에 미성년자를 포함해 8명의 원고를 배치했다고 밝혔다.

소송에서 확인된 AI 도구 학습에 활용된 콘텐츠는 데이트 웹사이트의 사진에서 스포티파이 재생 목록과 틱톡 비디오에 이르기까지 다양한 것으로 나타났다. 베스트셀러 작가이자 탐사 저널리스트로 알려진 원고중 한 명인 J.L.은 구글이 바드를 교육하기 위해 그의 책 전체를 복사했다고 주장했다.

로펌은 “구글의 AI 도구를 교육하기 위한 데이터 스크래핑은 구매해야할 개인의 창작물을 대신하는 버전을 만들고 있다”며 “인터넷 사용자는 디지털 데이터가 수집돼 검색 결과 또는 광고에 사용되는데 익숙해졌을 수 있지만, AI교육의 경우에는 자신의 정보가 이런 식으로 사용될 것이라고 상상하지 못하고 있을 것”이라고 지적했다.

또 로펌은 “구글은 인터넷을 소유하지 않고 우리의 창작물을 소유하지 않으며 우리가 온라인에서 공유한다는 이유만으로 우리의 인격 표현, 가족과 자녀의 사진 또는 그 밖의 어떤 것도 소유할 권리가 없다”고 강조했다.

할리마 데레인 프라도 구글 법률 고문인은 성명서를 통해 “이번 소송의 주장은 근거가 없다”며 “구글은 오픈 웹 및 공개 데이터 세트에 게시된 정보 등 공개소스의 데이터를 사용해 책임감 있는 AI 원칙에 따라 구글 번역과 같은 서비스 뒤에 있는 AI 모델을 교육한다는 점을 수년 동안 분명히 해왔다”고 해명했다.

성명서는 “미국법은 공개 정보를 사용해 새롭고 유익한 용도를 창출하는 것을 지원하며 우리는 이러한 근거 없는 주장을 반박할 것”이라고 밝혔다.

알파벳과 딥마인드는 논평 요청에 응답하지 않았다.