AI 학습용 데이터 170종 4.8억건 민간 공개...'데이터 댐' 개방

정부가 2017년부터 쌓아온 인공지능(AI) 학습용 데이터를 민간에 개방한다. 이번에 개방하는 데이터는 170종, 4억8000만건에 달하며 인공지능 허브(aihub.or.kr)를 통해 18일부터 개방된다. 이 프로젝트는 과학기술정보통신부와 한국지능정보화사회진흥원이 담당했다.

인공지능 허브를 통해 개방되는 AI 학습용 데이터는 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려운 중소기업 및 스타트업, 그리고 대기업도 자체 확보가 어려운 대규모 데이터를 제공한다. 이로 인해 국내 AI 산업계의 가장 큰 걸림돌이었던 '데이터 갈증'이 어느 정도 해소될 것으로 기대된다.

그동안 국내 AI 기업들은 AI 개발에 필요한 데이터 확보를 위해 해외의 '오픈데이터'를 주로 활용해 왔다. 그렇지만 한국어와 국내 도로환경 등 국내 실정을 반영하지 못한 오픈데이터는 우리나라에 적합한 AI 서비스 개발에 한계점이 있었다.

이번에 공개되는 데이터에는 지역별 방언(사투리)를 포한 한국어, 국내 주요 도로, 환자 의료영상 데이터 등이 대폭 확충됐다.

오는 30일 공개 예정인 경상 전라 충청 강원 제주의 사투리 발화 데이터는 표준어에 비해 사투리를 인식하지 못했던 음성기반 AI 서비스의 문제점을 상당 부분 해결해 줄 것으로 기대된다. 이는 데이터 개방 전 활용성 검토 결과 '자연스러운 방언이 수집됨', '기존 서비스의 인식률이 12% 향상됨' 등 좋은 평가를 받기도 했다.

18일부터 30일까지 순차적으로 공개되는 자율주행 데이터는 도로주행 영상, 각종 장애물 인지영상, 버스 노선 영상 등의 데이터를 제공한다. 이렇듯 특수 차선이나 포트홀 등 다양한 객체가 포함돼 있어 국내 환경에 맞는 자율주행차 개발에 도움이 될 것으로 기대된다.

이번에 대규모로 개방되는 8대 분야 170종의 AI 학습용 데이터는 기획부터 구축까지 산업계, 전문가, 그리고 일반 국민들이 참여해 만들어 졌다.

 

민간의 광범위한 수요를 바탕으로 분야별 전문가와 기업이 직접 참여해 해당 데이터(한국어 음성, 도로주행 영상, 주요 암질환 영상 데이터 등)를 기획했다. 이 데이터는 민간에서 대규모로 구축이 어렵고, 산업 파급효과가 큰 영역의 데이터를 모으는 것이 목표다.

그리고 데이터 구축에는 국내 AI 및 데이터 전문기업과 주요 대학, 병원 등 총 674개 기업/기관이 참여했다.

가장 주목할 부분은 데이터의 수집과 가공 과정에서 경력단절여성, 취준생 등 국민 누구나 참여할 수 있는 크라우드 소싱 방식을 도입해 4만여명의 참여를 이끌어 냈다.

2020년 AI 학습용 데이터 구축 예시
2020년 AI 학습용 데이터 구축 예시

이렇게 모인 AI 학습용 데이터는 그 품질과 활용성 검증에 각 분야의 전문가 80여명이 참여하는 품질 관리 지원체계를 구축했다. 또한 네이버, LG, 삼성전자, KT, 현대차 등 대기업을 비롯해 스타트업, 대학, 연구기관 등 20여개 기업/기관이 참여해 활용성 검토를 진행했다.

과기정통부 양기성 데이터진흥과장은 "데이터 개방 후에도 이용자 참여형 집중개선기간을 운영하면서 요구사항을 적극 반영하는 민관 협력을 통해 지속적으로 데이터를 개선할 것"이라고 말했다.

한편, 과기정통부는 AI 학습용 데이터 개방과 함께, 18일 인공지능 데이터 활용협의회 출범식을 갖고 현장 간담회를 개최해 이용 기업/기관의 의견을 수렴했다.

이 자리에서 임혜숙 과기정통부 장관은 "댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에 널리 활용돼 혁신의 열매를 맺을 수 있기를 기대한다"고 강조했다.

김광우 기자

kimnoba@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

두산디지털이노베이션, ‘사이버리즌 EDR 솔루션’ GS인증 1등급 획득

두산디지털이노베이션(이하 DDI)의 사이버리즌 EDR(Endpoint Detection&Response, 엔드포인트 위협·대응) 솔루션이 GS(Good Software) 인증 최고 등급인 1등급을 획득했다. 28일 DDI에 따르면 GS인증은 한국정보통신기술협회(TTA)가...

네이트 감성 캐릭터 선정, 올여름 네티즌들의 가슴을 적신 최고의 뉴스는?

SK커뮤니케이션즈(이하 SK컴즈)의 포털 플랫폼 네이트가 지난 7월과 8월 뉴스기사 감정 캐릭터 통계자료를 28일 발표했다. 네이트 뉴스 감정 캐릭터는 ‘최고예요’ ‘훈훈해요’...

다비오, 인천 개항장 일대 라스트마일 지도 서비스 제공키로

공간정보 AI 기술 기업 다비오가 인천 중구 개항장 일대의 지역에 위치정보가 포함된 QR기반 지도와 콘텐츠가 결합된 스마트관광서비스를 올해 10월 말에 선보일 예정이다.

어메이즈VR, 3200만달러 시리즈B 투자 받아

가상현실 컨텐츠 제작 및 유통회사인 어메이즈VR이 시리즈B 라운드에서 1700만달러의 신규 투자 유치를 완료했다. 이로써 2021년 프리 시리즈B와 합쳐서 시리즈B 누적 투자금 3200만달러를 확보했다.