Microsoft AI (MAI) has announced the release of two new in-house AI models designed to support their mission of creating AI for everyone. The first model, MAI-Voice-1, is a highly expressive and natural speech generation model capable of generating a full minute of audio in under a second on a single GPU, making it one of the most efficient speech systems available today. This voice model is already powering Copilot Daily and Podcasts features and is available as a new Copilot Labs experience for users to try expressive speech and storytelling demos. The second model, MAI-1-preview, is Microsoft's first end-to-end trained foundation model using a mixture-of-experts architecture, pre-trained and post-trained on approximately 15,000 NVIDIA H100 GPUs. MAI-1-preview is currently undergoing public testing on LMArena and will be gradually rolled out for certain text use cases within Copilot over the coming weeks. Microsoft emphasizes their strategy of orchestrating a range of specialized models serving different user intents and use cases to unlock immense value for users globally. The company is operating their next-generation GB200 cluster and is offering API access to trusted testers to collect early feedback and improve the models.
마이크로소프트 AI(MAI)가 자체 개발한 두 가지 새로운 AI 모델을 공개했다고 발표했다. 첫 번째 모델인 'MAI-보이스-1(MAI-Voice-1)'은 매우 표현력이 풍부하고 자연스러운 음성 생성 모델로, 단일 GPU에서 1초 만에 1분 분량의 오디오를 생성할 수 있어 현재 가장 효율적인 음성 시스템 중 하나다. 이 모델은 이미 코파일럿 데일리(Copilot Daily)와 팟캐스트 기능에 적용되었으며, 코파일럿 랩스(Copilot Labs)에서 체험해볼 수 있다. 두 번째 모델인 'MAI-1-프리뷰(MAI-1-preview)'는 약 15,000개의 엔비디아(NVIDIA) H100 GPU로 처음부터 끝까지 훈련된 자체 파운데이션 모델로, 믹스처 오브 익스퍼츠(mixture-of-experts) 구조를 사용한다. 이 모델은 현재 LM아레나(LMArena)에서 공개 테스트 중이며, 향후 몇 주 내에 코파일럿의 특정 텍스트 사용 사례에 단계적으로 도입될 예정이다. 마이크로소프트는 이러한 특화 모델들을 통해 다양한 사용자 의도와 사용 사례를 지원하는 오케스트레이션 전략을 추진하고 있다고 밝혔다. 회사는 차세대 GB200 클러스터를 운영 중이며, 신뢰할 수 있는 테스터들에게 API 접근권을 제공하여 초기 피드백을 수집하고 있다.
