카카오브레인, 국내 최대 규모의 데이터셋 ‘코요’ 31일 공개

카카오브레인이 초거대 AI 연구 개발 저변을 확대하고자 국내 최대 규모의 이미지-텍스트 데이터셋을 공식 홈페이지를 통해 외부에 공개한다고 30일 밝혔다.

31일 공개 예정인 데이터셋 ‘Coyo(이하 코요)’는 '약 7억4000만개의 이미지-텍스트로 이루어진 데이터셋으로 카카오브레인 초거대 AI 개발의 기반이자 기업의 핵심 자산이다.

카카오브레인에 따르면 데이터셋은 초거대 AI 모델이 정교한 결과값을 구현하는 데 필요한 핵심 요소 중 하나다. 높은 성능을 위해 많은 기업들이 수작업으로 이미지-텍스트 쌍을 맞추어 데이터셋을 수집하는데, 이때 높은 비용과 많은 시간이 투입된다.

카카오브레인 측은 “‘코요’ 개발 시, 독자 개발한 기술로 이미지-텍스트를 온라인에서 자동 수집함으로써 투입되는 비용과 시간을 효과적으로 줄이고, 동시에 양질의 데이터를 선별해 높은 성능을 구현했다”며 “실제로 유수의 글로벌 AI 기업에서 공개한 초거대 AI 모델 재현을 통해 교차 검증을 마치며 데이터의 품질을 확인했다”고 밝혔다.

‘코요’는 카카오브레인이 앞서 공개한 초거대 AI 이미지 생성 모델 ‘RQ-Transformer’와 AI 아티스트 ‘칼로(Karlo)’ 개발에 적용됐다. 지난 4월에 공개한 ‘RQ-Transformer’는 기술의 우수성을 종합적으로 인정받아 6월에 열린 세계적 학술대회 CVPR 2022에서 해당 논문의 발표 기회를 얻었으며, 최근 현대미술가 고상우, 삼성전자 ‘갤럭시 북 아트 프로젝트’ 와의 협업을 통해 AI 아티스트 ‘칼로’의 활용 가능성을 입증한 바 있다.

카카오브레인은 현재까지 글로벌로 공개된 데이터셋 중 최상위급 규모인 ‘코요’를 세계 최대 수준으로 확대한다는 목표 하에 한국어를 비롯한 다양한 언어로 개발해 나갈 계획이다. 또한 내년 상반기 중 ‘코요’ 데이터셋을 활용한 초거대 AI 모델을 추가 공개할 예정이다.

김일두 카카오브레인 대표는 “이번 데이터셋 공개는 초거대 AI 기술 개발에 박차를 가할 중요한 근간이자 이정표가 될 것”이라며 “앞으로도 카카오브레인은 다방면으로 기술 리더십을 선도하고 AI 커뮤니티와 협력하며 AI 생태계 발전에 이바지할 것”이라고 말했다.

한편 카카오브레인은 멕시코의 대표 화가 프리다 칼로(Frida Kahlo)의 고향인 멕시코시티 '코요아칸(Coyoacán)'의 앞 글자를 따 이번 데이터셋을 ‘코요’로 지었다. ‘칼로’가 ‘코요’를 기반으로 탄생하게 된 것처럼 ‘코요’를 통해 수많은 AI 모델이 개발됐으면 하는 카카오브레인의 포부가 담겨있다.

황정호 기자

jhh@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

유아이패스, 신규 기능 업데이트 공개

엔터프라이즈용 자동화 소프트웨어 기업 유아이패스(UiPath)가 글로벌 유저 컨퍼런스 포워드5(FORWARD 5)에서 최신 플랫폼 업데이트를 선보였다.

편의점 마감 상품 배달… 라스트오더 '편의점 배달 서비스' 론칭

마감할인상품 거래 서비스 라스트오더는 오는 10월 1일부터 세븐일레븐 편의점 상품 배달 서비스를 새롭게 선보인다고 30일 밝혔다.

NHN페이코 간편 결제 서비스, 다이소도 반했다

NHN PAYCO(이하 NHN페이코)는 균일가 생활용품점 아성다이소가 운영하는 오프라인 매장 다이소와 매장 기반 배송 서비스인 샵(#)다이소에 페이코(PAYCO) 결제 서비스를 적용했다고 30일...

아드리엘 마케팅 솔루션 ‘애드옵스’, 기흥그룹 도입했다

글로벌 애드테크 기업 아드리엘이 할리데이비슨 코리아·맥라렌 서울·애스턴마틴 서울 등 글로벌 모빌리티 브랜드 국내 총괄을 맡고 있는 기흥그룹과 손잡았다. 30일 아드리엘은...