아마존, 최대 규모의 새로운 텍스트-음성 변환 AI 인공지능 모델 개발

A team of Amazon researchers has announced the development of the largest text-to-speech (TTS) model ever created, opening up new possibilities for artificial intelligence technology. The model, called BASE TTS, was trained on 100,000 hours of public domain speech data and has 980 million parameters. It is believed to be the largest model in the text-to-speech domain to date. For comparison, the researchers said they also trained models with 400 million and 150 million parameters based on 10,000 and 1,000 hours of audio, respectively. This allows for more natural and fluent speech synthesis, according to the Amazon researchers. "We believe that BASE TTS can be used in a variety of applications, including customer service, education, and entertainment, and that this research will contribute significantly to the advancement of text-to-speech technology."

아마존 연구팀은 지금까지 제작된 것 중 가장 큰 텍스트 음성 변환(TTS) 모델을 개발하며 인공지능 기술의 새로운 가능성을 열었다고 발표했다. 'BASE TTS'라고 명명된 이 모델은 100,000시간의 공개 도메인 음성 데이터를 기반으로 훈련되었으며, 9억 8천만 개의 매개변수를 가지고 있다. 이는 현재까지 텍스트-음성 영역에서 가장 큰 모델로 평가받고 있다. 연구팀은 비교를 위해 10,000시간 및 1,000시간의 오디오를 기반으로 각각 4억 및 1억 5천만 개의 매개변수를 가진 모델도 훈련했다고 전했다. 이는 더욱 자연스럽고 유창한 음성을 합성할 수 있는 것으로 아마존 연구팀은 "BASE TTS가 고객응대, 교육, 엔터테인먼트 등 다양한 분야에 활용될 수 있다고 기대한다. 또한, 이번 연구는 텍스트 음성 변환 기술의 발전에 크게 기여할 것으로 평가된다"고 강조했다.

Largest text-to-speech AI model yet shows 'emergent abilities'

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

레딧, 수십만 명 사용자 영향 준 짧은 정전 고장 복구

Reddit, the largest online community in the United States, said Thursday (local time) that it has resolved all issues after an outage that left hundreds of thousands of users around the world unable to access the service for more than 30 minutes.

스냅, 광고 시스템 개선으로 1분기 기대치 뛰어넘어… 주가 25% 급등

Snap, the parent company of photo messaging app Snapchat, beat Wall Street's expectations for first quarter (Q1) revenue and user growth, sending its shares soaring 25%. Improvements to its advertising system and a possible ban on TikTok are thought to have had a positive impact.

스포티파이, 애플과의 대립 심화… 유럽 시장에서 가격 정보 표시 시도 후 업데이트 반려

The battle between Spotify and Apple is escalating. Spotify has attempted to display in-app pricing information in the European market, but has been rejected by Apple.

AI 데이터센터 위한 에너지 스타트업 2천만 달러 투자 유치

Exowatt, a startup developing modules that store energy as heat and produce electricity for AI data centers, has secured a $20 million investment from OpenAI CEO Sam Altman and venture capital firm Andreessen Horowitz.