New York City startup Hume AI has launched a new text and voice generation model called 'Octave'. This model is the first large language model (LLM)-based text-to-speech system trained not only on text but also on speech and emotion tokens, allowing it to understand words in context and adjust tone, rhythm, and cadence accordingly. Users can fine-tune the voice at the sentence level through natural language instructions such as "happier," "angrier," or "more sarcastic," while the model considers entire paragraphs to capture context for more natural speech. Octave is optimized for content creation including audiobooks, podcasts, video voiceovers, and video game characters, currently supporting English and Spanish languages. Hume AI offers subscription-based pricing from free to enterprise-level plans, providing services at approximately half the cost of competitor ElevenLabs. The model was trained on tens of trillions of language tokens and millions of hours of speech data, and can maintain consistent character voices throughout long-form content.
뉴욕시 스타트업 흄 AI(Hume AI)가 '옥타브(Octave)'라는 새로운 텍스트-음성 생성 모델을 출시했다. 이 모델은 텍스트뿐만 아니라 음성과 감정 토큰으로도 훈련된 최초의 대규모 언어모델(LLM) 기반 텍스트-음성 변환 시스템으로, 단어를 맥락 속에서 이해하여 톤, 리듬, 억양을 조절할 수 있다. 사용자는 "더 행복하게", "더 화나게", "더 비꼬는 투로" 등 자연어 지시를 통해 문장 단위로 음성을 세밀하게 조정할 수 있으며, 모델은 문단 전체를 고려해 맥락을 파악한다. 옥타브는 오디오북, 팟캐스트, 비디오 내레이션, 비디오 게임 캐릭터 등의 콘텐츠 제작에 최적화되었으며, 현재는 영어와 스페인어를 지원한다. 흄 AI는 무료부터 엔터프라이즈급까지 다양한 구독 기반 가격 모델을 제공하며, 경쟁사인 일레븐랩스보다 약 절반 가격에 서비스를 제공한다. 이 모델은 수천조 개의 언어 토큰과 수백만 시간의 음성 데이터로 훈련되었으며, 장문형 콘텐츠에서도 캐릭터 음성의 일관성을 유지하는 기능을 갖추고 있다.
