AI 학습용 데이터 170종 4.8억건 민간 공개...'데이터 댐' 개방

정부가 2017년부터 쌓아온 인공지능(AI) 학습용 데이터를 민간에 개방한다. 이번에 개방하는 데이터는 170종, 4억8000만건에 달하며 인공지능 허브(aihub.or.kr)를 통해 18일부터 개방된다. 이 프로젝트는 과학기술정보통신부와 한국지능정보화사회진흥원이 담당했다.

인공지능 허브를 통해 개방되는 AI 학습용 데이터는 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려운 중소기업 및 스타트업, 그리고 대기업도 자체 확보가 어려운 대규모 데이터를 제공한다. 이로 인해 국내 AI 산업계의 가장 큰 걸림돌이었던 '데이터 갈증'이 어느 정도 해소될 것으로 기대된다.

그동안 국내 AI 기업들은 AI 개발에 필요한 데이터 확보를 위해 해외의 '오픈데이터'를 주로 활용해 왔다. 그렇지만 한국어와 국내 도로환경 등 국내 실정을 반영하지 못한 오픈데이터는 우리나라에 적합한 AI 서비스 개발에 한계점이 있었다.

이번에 공개되는 데이터에는 지역별 방언(사투리)를 포한 한국어, 국내 주요 도로, 환자 의료영상 데이터 등이 대폭 확충됐다.

오는 30일 공개 예정인 경상 전라 충청 강원 제주의 사투리 발화 데이터는 표준어에 비해 사투리를 인식하지 못했던 음성기반 AI 서비스의 문제점을 상당 부분 해결해 줄 것으로 기대된다. 이는 데이터 개방 전 활용성 검토 결과 '자연스러운 방언이 수집됨', '기존 서비스의 인식률이 12% 향상됨' 등 좋은 평가를 받기도 했다.

18일부터 30일까지 순차적으로 공개되는 자율주행 데이터는 도로주행 영상, 각종 장애물 인지영상, 버스 노선 영상 등의 데이터를 제공한다. 이렇듯 특수 차선이나 포트홀 등 다양한 객체가 포함돼 있어 국내 환경에 맞는 자율주행차 개발에 도움이 될 것으로 기대된다.

이번에 대규모로 개방되는 8대 분야 170종의 AI 학습용 데이터는 기획부터 구축까지 산업계, 전문가, 그리고 일반 국민들이 참여해 만들어 졌다.

 

민간의 광범위한 수요를 바탕으로 분야별 전문가와 기업이 직접 참여해 해당 데이터(한국어 음성, 도로주행 영상, 주요 암질환 영상 데이터 등)를 기획했다. 이 데이터는 민간에서 대규모로 구축이 어렵고, 산업 파급효과가 큰 영역의 데이터를 모으는 것이 목표다.

그리고 데이터 구축에는 국내 AI 및 데이터 전문기업과 주요 대학, 병원 등 총 674개 기업/기관이 참여했다.

가장 주목할 부분은 데이터의 수집과 가공 과정에서 경력단절여성, 취준생 등 국민 누구나 참여할 수 있는 크라우드 소싱 방식을 도입해 4만여명의 참여를 이끌어 냈다.

2020년 AI 학습용 데이터 구축 예시
2020년 AI 학습용 데이터 구축 예시

이렇게 모인 AI 학습용 데이터는 그 품질과 활용성 검증에 각 분야의 전문가 80여명이 참여하는 품질 관리 지원체계를 구축했다. 또한 네이버, LG, 삼성전자, KT, 현대차 등 대기업을 비롯해 스타트업, 대학, 연구기관 등 20여개 기업/기관이 참여해 활용성 검토를 진행했다.

과기정통부 양기성 데이터진흥과장은 "데이터 개방 후에도 이용자 참여형 집중개선기간을 운영하면서 요구사항을 적극 반영하는 민관 협력을 통해 지속적으로 데이터를 개선할 것"이라고 말했다.

한편, 과기정통부는 AI 학습용 데이터 개방과 함께, 18일 인공지능 데이터 활용협의회 출범식을 갖고 현장 간담회를 개최해 이용 기업/기관의 의견을 수렴했다.

이 자리에서 임혜숙 과기정통부 장관은 "댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에 널리 활용돼 혁신의 열매를 맺을 수 있기를 기대한다"고 강조했다.

김광우 기자

kimnoba@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

서울테크노파크, AI도입 및 DX전략 수립 지원 세미나 개최

서울테크노파크(이하 서울TP)는 제조기업 임원진 대상 ‘AI 도입 및 DX전략 수립 지원 세미나’를 개최한다고 2일 밝혔다. 서울TP에 따르면 이번 세미나는 AI,...

아이엠스쿨로 우리아이 초등학교, 학원 등·하교 확인해 볼까?

엔에이치엔 에듀(이하 NHN에듀)는 학교의 등·하교 알림을 제공하는 아이알리미 서비스가 아이엠스쿨에서도 제공된다고 2일 밝혔다. 이번 서비스 연동으로 아이엠스쿨은 알림장, 가정통신문, 급식...

브라이언임팩트, ‘브라이언 펠로우’ 시즌 5 공개 모집

브라이언임팩트는 2일 사회혁신가를 지원하는 ‘브라이언 펠로우’ 시즌 5를 공개 모집한다고 밝혔다. 최종 선정된 브라이언 펠로우는 사회 문제 해결을 위한 도전을...

IT여성기업인협회, AI EXPO KIBWA 세미나 개최

IT여성기업인협회(이하 KIBWA)는 ‘AI EXPO KIBWA 세미나‘를 COEX 3F Hall D에서 성공적으로 진행했다고 2일 밝혔다. 지난 1일 ‘AI EXPO KOREA 2024’...