오픈AI, 실시간 음성 AI 3종 공개...추론·번역·전사 모델

오픈AI가 5월 7일, 개발자용 실시간 음성 AI 모델 3종을 리얼타임 API를 통해 공개했다. 세 모델은 각각 추론·번역·전사(텍스트 변환)를 전담하며, GPT-리얼타임-2, GPT-리얼타임-트랜슬레이트, GPT-리얼타임-위스퍼로 구성된다.

핵심 모델인 GPT-리얼타임-2는 GPT-5급 추론 능력을 갖춘 첫 음성 모델로, 대화 도중 복잡한 요청 처리·외부 도구 호출·맥락 유지가 가능하며 컨텍스트 윈도우가 기존 3만 2,000토큰에서 12만 8,000토큰으로 4배 확장됐다. GPT-리얼타임-트랜슬레이트는 화자의 속도에 맞춰 70개 이상 입력 언어를 13개 출력 언어로 실시간 통역한다. GPT-리얼타임-위스퍼는 발화와 동시에 텍스트를 생성하는 저지연 실시간 전사 모델로, 라이브 자막·회의록 등에 활용된다.

이미 질로우, 프라이스라인, 도이치텔레콤 등이 테스트에 참여하고 있다. 가격은 GPT-리얼타임-2가 오디오 입력 토큰 100만 개당 32달러(약 4만 6,000원), 트랜슬레이트는 분당 0.034달러(약 49원), 위스퍼는 분당 0.017달러(약 25원)이다.

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

구글, 헬스 데이터 통합한 ‘구글 헬스’ 전격 출범

구글이 웨어러블 기기 브랜드 ‘핏비트(Fitbit)’ 앱을 자사의 건강 데이터를 총망라한 통합 포털인 ‘구글 헬스(Google Health)’로 전격 개편한다.

메타, 인스타그램 전용 쇼핑 AI 에이전트 ‘해치’ 개발

메타가 인스타그램과 외부 앱을 넘나들며 사용자의 업무와 쇼핑을 대행하는 차세대 AI 에이전트 개발에 박차를 가하고 있다.

"애플 카메라 내장 에어팟, 고도화 테스트"...사진 촬영 아닌 AI 시각 정보 전용

애플이 카메라 내장 에어팟 프로토타입을 DVT 단계까지 진행했다. 사진 촬영 아닌 AI 시각 정보 전용으로, 차세대 시리와 함께 9월 출시 가능성이 거론된다.

“브라우저가 곧 개발실”… 오픈AI, 코딩 AI ‘코덱스’ 크롬 이식해 개발 장벽 허문다

오픈AI가 자사의 핵심 AI 코딩 엔진인 ‘코덱스(Codex)’를 구글 크롬 확장 프로그램으로 출시하며 브라우저 기반의 개발 생태계 확장에 나섰다.