아마존, 최대 규모의 새로운 텍스트-음성 변환 AI 인공지능 모델 개발

A team of Amazon researchers has announced the development of the largest text-to-speech (TTS) model ever created, opening up new possibilities for artificial intelligence technology. The model, called BASE TTS, was trained on 100,000 hours of public domain speech data and has 980 million parameters. It is believed to be the largest model in the text-to-speech domain to date. For comparison, the researchers said they also trained models with 400 million and 150 million parameters based on 10,000 and 1,000 hours of audio, respectively. This allows for more natural and fluent speech synthesis, according to the Amazon researchers. "We believe that BASE TTS can be used in a variety of applications, including customer service, education, and entertainment, and that this research will contribute significantly to the advancement of text-to-speech technology."

아마존 연구팀은 지금까지 제작된 것 중 가장 큰 텍스트 음성 변환(TTS) 모델을 개발하며 인공지능 기술의 새로운 가능성을 열었다고 발표했다. 'BASE TTS'라고 명명된 이 모델은 100,000시간의 공개 도메인 음성 데이터를 기반으로 훈련되었으며, 9억 8천만 개의 매개변수를 가지고 있다. 이는 현재까지 텍스트-음성 영역에서 가장 큰 모델로 평가받고 있다. 연구팀은 비교를 위해 10,000시간 및 1,000시간의 오디오를 기반으로 각각 4억 및 1억 5천만 개의 매개변수를 가진 모델도 훈련했다고 전했다. 이는 더욱 자연스럽고 유창한 음성을 합성할 수 있는 것으로 아마존 연구팀은 "BASE TTS가 고객응대, 교육, 엔터테인먼트 등 다양한 분야에 활용될 수 있다고 기대한다. 또한, 이번 연구는 텍스트 음성 변환 기술의 발전에 크게 기여할 것으로 평가된다"고 강조했다.

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

삼성, 멀미 완화 앱 '히어라피' 출시...이어폰으로 60초 들으면 2시간 효과

삼성이 이어폰으로 멀미를 완화하는 무료 앱 '히어라피'를 출시했다. 100Hz 저음 사인파를 60초간 들으면 최대 2시간 멀미 증상이 억제되며, 갤럭시 버즈4 프로 외 타사 이어폰에서도 사용 가능하다.

“남들 다 포기할 때 거꾸로 간다”… 토요타, 볼보·다임러와 ‘수소 동맹’ 전격 결성

세계 최대 자동차 기업 토요타가 전기차로 쏠린 업계 흐름에 맞서 수소 연료전지 시장에 승부수를 던졌다.

이란, 애플·구글·마이크로소프트 등 미국 기업 18곳 타격 경고

이란 혁명수비대(IRGC)가 애플·구글·마이크로소프트 등 미국 기업 18곳을 중동에서 타격하겠다고 경고했다. 4월 1일 오후 8시(테헤란 기준)를 데드라인으로 제시하며 직원 대피를 촉구했다.

음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

메타가 레이밴(Ray-Ban)의 모회사 에실로룩소티카와 협력해 인공지능(AI) 기능을 대폭 강화한 차세대 스마트 안경 ‘옵틱스(Optics)’ 라인업을 선보였다.