AI 학습용 데이터 170종 4.8억건 민간 공개...'데이터 댐' 개방

정부가 2017년부터 쌓아온 인공지능(AI) 학습용 데이터를 민간에 개방한다. 이번에 개방하는 데이터는 170종, 4억8000만건에 달하며 인공지능 허브(aihub.or.kr)를 통해 18일부터 개방된다. 이 프로젝트는 과학기술정보통신부와 한국지능정보화사회진흥원이 담당했다.

인공지능 허브를 통해 개방되는 AI 학습용 데이터는 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려운 중소기업 및 스타트업, 그리고 대기업도 자체 확보가 어려운 대규모 데이터를 제공한다. 이로 인해 국내 AI 산업계의 가장 큰 걸림돌이었던 '데이터 갈증'이 어느 정도 해소될 것으로 기대된다.

그동안 국내 AI 기업들은 AI 개발에 필요한 데이터 확보를 위해 해외의 '오픈데이터'를 주로 활용해 왔다. 그렇지만 한국어와 국내 도로환경 등 국내 실정을 반영하지 못한 오픈데이터는 우리나라에 적합한 AI 서비스 개발에 한계점이 있었다.

이번에 공개되는 데이터에는 지역별 방언(사투리)를 포한 한국어, 국내 주요 도로, 환자 의료영상 데이터 등이 대폭 확충됐다.

오는 30일 공개 예정인 경상 전라 충청 강원 제주의 사투리 발화 데이터는 표준어에 비해 사투리를 인식하지 못했던 음성기반 AI 서비스의 문제점을 상당 부분 해결해 줄 것으로 기대된다. 이는 데이터 개방 전 활용성 검토 결과 '자연스러운 방언이 수집됨', '기존 서비스의 인식률이 12% 향상됨' 등 좋은 평가를 받기도 했다.

18일부터 30일까지 순차적으로 공개되는 자율주행 데이터는 도로주행 영상, 각종 장애물 인지영상, 버스 노선 영상 등의 데이터를 제공한다. 이렇듯 특수 차선이나 포트홀 등 다양한 객체가 포함돼 있어 국내 환경에 맞는 자율주행차 개발에 도움이 될 것으로 기대된다.

이번에 대규모로 개방되는 8대 분야 170종의 AI 학습용 데이터는 기획부터 구축까지 산업계, 전문가, 그리고 일반 국민들이 참여해 만들어 졌다.

 

민간의 광범위한 수요를 바탕으로 분야별 전문가와 기업이 직접 참여해 해당 데이터(한국어 음성, 도로주행 영상, 주요 암질환 영상 데이터 등)를 기획했다. 이 데이터는 민간에서 대규모로 구축이 어렵고, 산업 파급효과가 큰 영역의 데이터를 모으는 것이 목표다.

그리고 데이터 구축에는 국내 AI 및 데이터 전문기업과 주요 대학, 병원 등 총 674개 기업/기관이 참여했다.

가장 주목할 부분은 데이터의 수집과 가공 과정에서 경력단절여성, 취준생 등 국민 누구나 참여할 수 있는 크라우드 소싱 방식을 도입해 4만여명의 참여를 이끌어 냈다.

2020년 AI 학습용 데이터 구축 예시
2020년 AI 학습용 데이터 구축 예시

이렇게 모인 AI 학습용 데이터는 그 품질과 활용성 검증에 각 분야의 전문가 80여명이 참여하는 품질 관리 지원체계를 구축했다. 또한 네이버, LG, 삼성전자, KT, 현대차 등 대기업을 비롯해 스타트업, 대학, 연구기관 등 20여개 기업/기관이 참여해 활용성 검토를 진행했다.

과기정통부 양기성 데이터진흥과장은 "데이터 개방 후에도 이용자 참여형 집중개선기간을 운영하면서 요구사항을 적극 반영하는 민관 협력을 통해 지속적으로 데이터를 개선할 것"이라고 말했다.

한편, 과기정통부는 AI 학습용 데이터 개방과 함께, 18일 인공지능 데이터 활용협의회 출범식을 갖고 현장 간담회를 개최해 이용 기업/기관의 의견을 수렴했다.

이 자리에서 임혜숙 과기정통부 장관은 "댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에 널리 활용돼 혁신의 열매를 맺을 수 있기를 기대한다"고 강조했다.

김광우 기자

kimnoba@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

지엔터프라이즈, 세금 환급 서비스 '1분'… 환급 신청 이용료 선착순 무료 이벤트

세무자동화 스타트업 지엔터프라이즈는 자사가 운영하는 개인 세금 환급 서비스 ‘1분’에서 종합소득세 신고 시즌을 맞이해 선착순 5만 명을 대상으로 무료 환급...

법무법인 미션, ‘KDB 넥스트라운드 인 실리콘밸리’ 참가, 글로벌 벤처투자 생태계 가교 역할 ‘성공적’

법무법인 미션은 미국 실리콘밸리에서 개최된 'KDB 넥스트라운드 인 실리콘밸리'에 참여, '크로스보더 벤처투자 실무'를 주제로 세미나를 개최해 국내 벤처 생태계와 글로벌...

마이프차, 프랜차이즈 전용 상권분석 솔루션 출시

프랜차이즈 창업 플랫폼 마이프차는 프랜차이즈 본사 전용 상권분석 솔루션인 ‘마이프차 지도’ 서비스를 출시했다고 29일 밝혔다. 마이프차에 따르면 이는 급변하는 창업...

라이브데이터-동아출판, 맞춤형 수학 진단 평가 ‘AI진단’ 서비스 오픈

라이브데이터는 동아출판의 교실수업 지원 플랫폼 두클래스에 개인 맞춤형 수학 진단 평가인 ‘AI진단’ 서비스를 오픈했다고 29일 밝혔다. 동아출판의 AI 디지털교과서 보조출원자인...