“내 목소리로 통화해줘” 애플의 다음 혁신은 ‘디지털 복제 음성’

[AI요약] 애플이 연례개발자회의를 앞두고 아이폰에 업데이트될 몇 가지 혁신적인 기능을 공개했다. 퍼스널보이스는 사용자의 목소리를 합성해 디지털 복제 음성을 만들 수 있으며, 라이브스피치는 합성된 음성으로 가족이나 지인에 전화를 걸어 통화할수 있도록 한다. 해당 기능들은 인지, 시각, 청각 등 장애가 있는 사용자들이 보다 아이폰을 손쉽게 사용할수 있도록 도울 전망이다.

사용자가 텍스트 프롬프트를 읽어 오디오를 녹음하면, 해당 음성을 디바이스가 학습해 사용자의 디지털 복제 음성을 생성한다.(이미지=애플)

애플이 올해 말 대규모 아이폰 업데이트를 통해 공개할 몇 가지 주목받는 혁신 기능에 대해 CNN, CNBC 등 외신이 17일(현지시간) 보도했다.

애플의 이번 깜짝 공개는 다음달 열리는 연례개발자회의(WWDC) 앞두고 이뤄졌다. 가장 주목받고 있는 업데이트는 운영체제(iOS) 17의 일부로 예상되는 새로운 ‘퍼스널보이스’(Personal Voice) 기능이다. 아이폰 및 아이패드 사용자는 해당 기능을 통해 음성통화, 페이스타임 등의 기능을 사용할 때 자신의 디지털 복제 음성을 생성할수 있다.

퍼스널보이스는 사용자처럼 들리는 합성 음성을 만들어 가족이나 지인과 연결할수 있도록 한다. 사용자는 디바이스에 15분 분량의 오디오를 녹음하는 것을 통해 퍼스널보이스를 생성할수 있다. 사용자가 텍스트 프롬프트를 읽어 오디오를 녹음해 자신의 음성을 디바이스가 학습하도록 하는 것이다.

‘라이브스피치’(Live Speech)라는 관련 기능은 ‘합성된 음성’을 사용해 전화 통화, 페이스타임, 대화 및 대면 대화 중에 사용자가 입력한 텍스트를 소리내어 읽는다. 이 과정에서 사용자는 라이브 대화 중에 사용할 ‘자주 사용하는 문구’를 저장할수도 있다.

해당 기능들은 인지, 시각, 청각 및 이동 장애가 있는 사용자를 위해 애플이 디바이스를 보다 포괄적으로 만드는 것을 목표로 하는 여러 기술 중 하나이다. 특히 근위축성 측삭경화증(ALS)과 같이 현재는 괜찮지만 시간이 지남에 따라 목소리를 상실할 가능성이 있는 사용자들이 해당 도구들의 혜택을 가장 많이 받을수 있을 것으로 보인다.

문제는 이러한 도구들은 실질적인 요구사항을 충족시킬수 있는 잠재력이 있지만, AI의 발전으로 악의적인 행위자가 ‘딥페이크’로 알려진 가짜 오디오 또는 비디오를 만들어 대중에게 사기를 치거나 잘못된 정보를 제공할수 있다는 점이다.

애플에 따르면, 퍼스널보이스 기능은 사용자의 정보를 비공개로 안전하게 유지하기 위해 온디바이스 기계 학습를 사용하는 것으로 알려졌다.

애플은 음성기능 외에도 페이스타임, 메시지, 카메라, 사진, 음악, 전화 등 가장 인기 있는 iOS 앱 중 일부를 하나의 통화 앱으로 결합하는 ‘어시스티브 액세스’(Assistive Access)를 공개했다.

해당 인터페이스에는 고대비 버튼, 큰 텍스트 레이블, 이모티콘 전용 키보드 옵션, 시각 또는 음성 커뮤니케이션을 선호하는 사람들을 위한 비디오 메시지 녹음 기능이 포함돼 있다. 애플은 또 시각 장애인을 위한 돋보기 앱을 업데이트하고 있는데, 앞으로 사용자들은 해당 앱을 통해 실제 물체와 더 잘 상호작용할 수 있는 감지모드를 사용할수 있게 된다.

또다른 빅테크 기업은 지난해 AI를 사용하여 음성을 복제하는 실험을 진행했다. 아마존은 사망한 가족 구성원을 포함해 모든 음성을 흉내낼 수 있는 알렉사 시스템 업데이트 작업을 진행하고 있다고 밝혔으나, 아직 출시되지는 않았다.

애플은 일반적으로 WWDC에서 베타 버전의 소프트웨어를 출시한다. 즉, 개발자와 옵트인을 원하는 대중이 먼저 기능을 사용할 수 있는데, 당시 공개된 기능은 보통 여름 내내 베타 버전으로 유지되며 새로운 기능은 가을에 공개된다.

애플의 ‘2023 WWDC 컨퍼런스’는 다음달 5일에 시작되며, 해당 행사에서 애플이 발표할 또다른 소프트웨어 및 하드웨어 중에서는 최초의 가상 현실 헤드셋을 공개가 포함될 것으로 예상되고 있다.

사라 허링거 애플 글로벌 손쉬운 사용정책 및 이니셔티브 수석 책임자는 “접근성은 애플이 하는 모든 일의 일부”라며 “이 획기적인 기능은 다양한 사용자를 지원하고 사람들이 새로운 방식으로 연결할수 있도록 모든 단계에서 장애 커뮤니티 구성원의 피드백을 받아 설계됐다” 애플 블로그 게시물을 통해 밝혔다.

류정민 기자

znryu@daum.net
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

야렉 쿠틸로브스키 딥엘 창업자 “사람과 상호작용하는 자체 LLM 기반 언어 AI 개발…번역, 글쓰기 이어 음성 번역 서비스도 선보일 것”

26일 딥엘의 창업자인 야렉 쿠틸로브스키 CEO가 직접 한국을 방문해 시장 진출 1년의 성과와 향후 전략을 발표했다. 쿠틸로브스키 CEO가 소개한 딥엘 라이트 프로는 딥엘의 자체 거대언어모델(LLM)로 구동되는 첫 서비스로, 기업이 사내외 커뮤니케이션, 계약서 등 기업이 글로벌 비즈니스 상황에서 더 명확하게 소통하는데 기여할 것으로 기대하고 있다.

자, 그럼 이제 ‘틱톡’은 누가 사게 되나요?

미국 의회가 틱톡을 미국에서 금지하는 법안을 통과시키고 하루만에 조 바이든 미국 대통령이 이에 서명함에따라, 설마했던 미국 틱톡 금지가 현실화 되고 있다. 이제 미국 정부와 업계는 틱톡의 새로운 주인을 찾기 위한 전략을 빠르게 세우고 있다.

[인터뷰] 김민석 로켓툴즈 대표 “데이터 수집과 분석, CRM까지 자동으로 하는 ‘AI 마케터’를 만들고 있습니다”

로켓툴즈는 퍼스트파티데이터를 분석하고 고품질 데이터로 추출해 정합성을 높이는 단계는 물론 CRM 마케팅에 필요한 타깃 정의, 콘텐츠 제작, 세팅, 결과 분석까지 제공하는 솔루션을 개발하고 있다. 여기에 더해 고객이 회원 가입시 쿠폰을 발급하고 자사몰에 접속했을 때 뜨는 팝업, 구매 유도를 위한 카카오톡 알림톡까지 자동으로 연계될 수 있도록 한다는 것이다. 이름하여 ‘AI 마케터’다.

달에서 문자하고 화성에서 스트리밍할까요?

달 탐험을 강화하고 궁극적으로 위성 행성에 인간이 존재할수 있는 미래를 모색하기 위해 NASA와 노키아가 올해 말, 달에서 4G 모바일 네트워크를 출시할 준비를 진행중이다. 이는 우주 식민지 주민이 개인 디바이스를 네트워크에 연결해 지구인이 사용하는 모든 앱과 서비스에 액세스할수 있는 스마트폰을 사용할 수 있다는 것을 의미한다.