"'이루다'가 배운 카톡 대화 DB는 모두 증거"

2021.02.20

[AI 요약] 사용자들의 일상 대화를 활용해 AI 대화 시스템을 구현하려는 시도는 불법의 영역에서 재판을 받게 되었다. 개발사가 이용자들에게 수집한 카카오톡 대화 내용을 제출하라고 명령하여, 데이터 수집 과정은 모두 증거로 인정되어, 임의로 파기할 수 없게 된 인공지능 기업의 데이터 활용 문제가 본격적인 법정 공방으로 돌입했다.

인공지능(AI) 기업의 데이터 활용 문제가 본격적인 법정 공방으로 돌입했다. 사용자들의 일상 대화를 활용해 AI 대화 시스템을 구현하려는 시도는, 이제 불법의 영역에서 재판을 받게 됐다. 이러한 AI 시스템 구축에 필요한 데이터를 모으는 과정은 앞으로 해당 산업 발전의 열쇠가 될 것으로 보인다.

지난 19일 법원은 AI 챗봇 이루다 개발사인 스캐터랩에 수집했던 카카오톡 대화 내용을 제출하라고 명령했다.

개발사가 이용자들에게 수집한 카카오톡 데이터베이스(DB)는 모두 증거로 인정돼, 이를 임의로 파기할 수 없게 된 것이다. 스캐터랩은 연애 정보 앱 '연애의 과학'을 통해 수집한 실제 연인 카톡 대화 1억 건을 AI 개발에 사용했다.

이 회사가 AI 챗봇을 개발하기 위해서 많은 DB가 필요했다. 그것도 실제 연인들이나 친구랑 이야기 했을 법한 대화체의 말을 모아야 했다. 사람처럼 자연스러운 언어를 구사하는 챗봇을 만들고, 머신러닝을 통해 스스로 학습해서 진화하는 AI를 만드는 것이 목표였기 때문이다.

이를 위해 스캐터랩은 이용자의 카카오톡 대화 100억건을 수집했다. 이 중에 많이 쓰이는 말투나 대화 1억건을 골라서 이루다의 DB에 적용했다.

이 탓에 이루다 출시 이후, 스캐터랩의 또다른 서비스 연애의 과학 사용자 300여 명은 스캐터랩을 상대로 개인정보 유출에 대한 집단 소송을 제기하고 증거 보전을 신청했다. 개인정보 유출 피해를 주장하며 100억건의 카카오톡 원본 DB와 1억건의 이루다 DB 모드 증거로 보전돼야 한다는 것이다.

이에 법원은 스캐터랩에 카카오톡 대화 DB와 이를 가공한 DB, AI가 학습을 통해 이뤄진 대화 내용 모두를 제출하라고 명령했다.

하정림 법무법인 태림 변호사는 "스캐터랩은 실명 등을 불완전 삭제했다. 또한 성적인 대화, 사상, 신념, 영업 비밀 등이 담긴 대화를 그대로 이루다 DB 학습 용도로 사용했고 이를 공개했다"면서, "확보한 DB로 위법 행위를 밝히고 소송을 진행할 것이다"라고 말했다.

#AI #이루다

김광우 기자

kimnoba@tech42.co.kr

기자의 다른 기사보기