OpenAI, 음성·텍스트 변환 모델 'Whisper' API 공개

OpenAI가 음성·텍스트 변환 모델 'Whisper API'를 공개 했다. (사진=TechCrunch)

인공지능 연구 스타트업 오픈AI가 ChatGPT API의 출시에 맞춰 지난해 9월 출시한 오픈 소스 Whisper 음성-텍스트 변환 모델의 호스팅 버전인 Whisper API를 출시했다.

OpenAI에 따르면 분당 0.006달러로 책정된 Whisper는 자동 음성 인식 시스템으로, 여러 언어로 간단한 번역뿐만 아니라 해당 언어에서 영어로 번역이 가능하다. 또한 M4A, MP3, MP4, MPEG, MPGA, WAV, WEBM 등 다양한 형식의 파일을 지원하고 있다.

이미 관련 기업에서 여러 형태로 개발되어온 음성 인식 시스템은 구글, 아마존, 메타와 같은 빅테크 기업의 소프트웨어와 서비스의 핵심으로 자리 잡고 있다.

하지만 OpenAI의 공동 설립자이자 최고기술 책임자인 그렉 브록먼(Greg Brockman)에 따르면 Whisper는 웹에서 수집한 68만 시간의 다국어 및 '멀티태스킹' 데이터를 학습하여 독특한 억양, 배경 소음, 기술 전문 용어에 대한 인식률이 향상되었다는 점이 가장 큰 차별화 요소로 꼽히고 있다.

브록먼은 한 매체와의 인터뷰에서 "우리는 안정적인 자동 음성 인식 모델을 출시했지만 실제로 전체 개발자 생태계가 이를 중심으로 구축되기에는 충분하지 않았다."라며 "Whisper API는 오픈 소스에서 얻을 수 있는 것과 동일한 대규모 모델이지만, 극도로 최적화하여 기존 시장에 나와있는 모델들보다 훨씬 더 빠르고 매우 편리하다."라고 말했다.

브록먼의 말처럼 기업이 음성 트랜스크립션 기술을 도입하는 데는 많은 장벽이 있다. 2020년 스타티스타(Statista) 설문조사에 따르면 기업들이 tech-to-speech 같은 기술을 도입하지 않은 가장 큰 이유는 정확성, 악센트 또는 방언에 관한 인식 문제, 비용 등을 가장 큰 이유로 꼽았다.

이에 OpenAI는 Whisper의 '다음 단어' 예측 영역에서의 한계를 인정했다. Whisper는 대량의 노이즈 데이터로 학습되었기 때문에, 오디오의 다음 단어를 예측하는 동시에 오디오 녹음 자체를 번역한다. 즉, 실제로 말하지 않은 단어가 번역본에 포함될 수 있으며 학습 데이터에 잘 나타나지 않는 언어를 사용하는 경우 오류율이 더 높다.

다만 업계에서는 이러한 예측 영역에서의 한계는 당연시 받아들이는 분위기다. 또한 불편한 편견의 역사는 최고의 빅테크 기업들조차도 피할 수 없다. 2020년 스탠퍼드 연구에 따르면 아마존, 애플, 구글, IBM, 마이크로소프트의 음성 번역 시스템이 흑인 사용자보다 백인 사용자에게 훨씬 적은 오류(약 19%)를 발생시킨 것으로 나타났다.

김광우 기자

kimnoba@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

지엔터프라이즈, 세금 환급 서비스 '1분'… 환급 신청 이용료 선착순 무료 이벤트

세무자동화 스타트업 지엔터프라이즈는 자사가 운영하는 개인 세금 환급 서비스 ‘1분’에서 종합소득세 신고 시즌을 맞이해 선착순 5만 명을 대상으로 무료 환급...

법무법인 미션, ‘KDB 넥스트라운드 인 실리콘밸리’ 참가, 글로벌 벤처투자 생태계 가교 역할 ‘성공적’

법무법인 미션은 미국 실리콘밸리에서 개최된 'KDB 넥스트라운드 인 실리콘밸리'에 참여, '크로스보더 벤처투자 실무'를 주제로 세미나를 개최해 국내 벤처 생태계와 글로벌...

마이프차, 프랜차이즈 전용 상권분석 솔루션 출시

프랜차이즈 창업 플랫폼 마이프차는 프랜차이즈 본사 전용 상권분석 솔루션인 ‘마이프차 지도’ 서비스를 출시했다고 29일 밝혔다. 마이프차에 따르면 이는 급변하는 창업...

라이브데이터-동아출판, 맞춤형 수학 진단 평가 ‘AI진단’ 서비스 오픈

라이브데이터는 동아출판의 교실수업 지원 플랫폼 두클래스에 개인 맞춤형 수학 진단 평가인 ‘AI진단’ 서비스를 오픈했다고 29일 밝혔다. 동아출판의 AI 디지털교과서 보조출원자인...