AI 학습용 데이터 170종 4.8억건 민간 공개...'데이터 댐' 개방

정부가 2017년부터 쌓아온 인공지능(AI) 학습용 데이터를 민간에 개방한다. 이번에 개방하는 데이터는 170종, 4억8000만건에 달하며 인공지능 허브(aihub.or.kr)를 통해 18일부터 개방된다. 이 프로젝트는 과학기술정보통신부와 한국지능정보화사회진흥원이 담당했다.

인공지능 허브를 통해 개방되는 AI 학습용 데이터는 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려운 중소기업 및 스타트업, 그리고 대기업도 자체 확보가 어려운 대규모 데이터를 제공한다. 이로 인해 국내 AI 산업계의 가장 큰 걸림돌이었던 '데이터 갈증'이 어느 정도 해소될 것으로 기대된다.

그동안 국내 AI 기업들은 AI 개발에 필요한 데이터 확보를 위해 해외의 '오픈데이터'를 주로 활용해 왔다. 그렇지만 한국어와 국내 도로환경 등 국내 실정을 반영하지 못한 오픈데이터는 우리나라에 적합한 AI 서비스 개발에 한계점이 있었다.

이번에 공개되는 데이터에는 지역별 방언(사투리)를 포한 한국어, 국내 주요 도로, 환자 의료영상 데이터 등이 대폭 확충됐다.

오는 30일 공개 예정인 경상 전라 충청 강원 제주의 사투리 발화 데이터는 표준어에 비해 사투리를 인식하지 못했던 음성기반 AI 서비스의 문제점을 상당 부분 해결해 줄 것으로 기대된다. 이는 데이터 개방 전 활용성 검토 결과 '자연스러운 방언이 수집됨', '기존 서비스의 인식률이 12% 향상됨' 등 좋은 평가를 받기도 했다.

18일부터 30일까지 순차적으로 공개되는 자율주행 데이터는 도로주행 영상, 각종 장애물 인지영상, 버스 노선 영상 등의 데이터를 제공한다. 이렇듯 특수 차선이나 포트홀 등 다양한 객체가 포함돼 있어 국내 환경에 맞는 자율주행차 개발에 도움이 될 것으로 기대된다.

이번에 대규모로 개방되는 8대 분야 170종의 AI 학습용 데이터는 기획부터 구축까지 산업계, 전문가, 그리고 일반 국민들이 참여해 만들어 졌다.

 

민간의 광범위한 수요를 바탕으로 분야별 전문가와 기업이 직접 참여해 해당 데이터(한국어 음성, 도로주행 영상, 주요 암질환 영상 데이터 등)를 기획했다. 이 데이터는 민간에서 대규모로 구축이 어렵고, 산업 파급효과가 큰 영역의 데이터를 모으는 것이 목표다.

그리고 데이터 구축에는 국내 AI 및 데이터 전문기업과 주요 대학, 병원 등 총 674개 기업/기관이 참여했다.

가장 주목할 부분은 데이터의 수집과 가공 과정에서 경력단절여성, 취준생 등 국민 누구나 참여할 수 있는 크라우드 소싱 방식을 도입해 4만여명의 참여를 이끌어 냈다.

2020년 AI 학습용 데이터 구축 예시
2020년 AI 학습용 데이터 구축 예시

이렇게 모인 AI 학습용 데이터는 그 품질과 활용성 검증에 각 분야의 전문가 80여명이 참여하는 품질 관리 지원체계를 구축했다. 또한 네이버, LG, 삼성전자, KT, 현대차 등 대기업을 비롯해 스타트업, 대학, 연구기관 등 20여개 기업/기관이 참여해 활용성 검토를 진행했다.

과기정통부 양기성 데이터진흥과장은 "데이터 개방 후에도 이용자 참여형 집중개선기간을 운영하면서 요구사항을 적극 반영하는 민관 협력을 통해 지속적으로 데이터를 개선할 것"이라고 말했다.

한편, 과기정통부는 AI 학습용 데이터 개방과 함께, 18일 인공지능 데이터 활용협의회 출범식을 갖고 현장 간담회를 개최해 이용 기업/기관의 의견을 수렴했다.

이 자리에서 임혜숙 과기정통부 장관은 "댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에 널리 활용돼 혁신의 열매를 맺을 수 있기를 기대한다"고 강조했다.

김광우 기자

kimnoba@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

NHN에듀-쓰리디타다, 메타버스와 3D 모델링 기술력 강화 위한 MOU 체결

엔에이치엔 에듀(이하 NHN에듀)는 자사의 메타버스 학습경험 분석 플랫폼인 ‘원더버스(Wonderverse)’가 ㈜쓰리디타다(대표 윤현모)와 함께 메타버스 및 3D 모델링 기술력 강화를 위한 전략적...

슈퍼브에이아이, 2026년 상반기 IPO 추진

비전 AI 올인원 솔루션 기업 슈퍼브에이아이는 2026년 상반기 기업공개(IPO)를 목표로 삼성증권을 대표 주관사로 선정했다고 18일 밝혔다. 슈퍼브에이아이는 현재 추가 투자유치를...

러닝스파크-한국에듀테크산업협회, ‘Global EdTech Evidence Development’ 포럼 개최

에듀테크 리서치 컨설팅 기업 러닝스파크는 한국에듀테크산업협회와 함께 ‘Global EdTech Evidence Development Forum(부제: 글로벌 에듀테크 증거개발 사례와 경험 공유)’을 공동 개최한다고...

온다, 2024년 1분기 실적 발표… 객실 유통·솔루션 모두 성장

호스피탈리티 테크 기업 온다(ONDA)가 1분기 뚜렷한 실적 개선세를 보였다. 17일 온다는 내부 결산 기준 2024년 1분기 거래액 484억원으로 지난해 1분기...