오픈AI가 5월 7일, 개발자용 실시간 음성 AI 모델 3종을 리얼타임 API를 통해 공개했다. 세 모델은 각각 추론·번역·전사(텍스트 변환)를 전담하며, GPT-리얼타임-2, GPT-리얼타임-트랜슬레이트, GPT-리얼타임-위스퍼로 구성된다.
핵심 모델인 GPT-리얼타임-2는 GPT-5급 추론 능력을 갖춘 첫 음성 모델로, 대화 도중 복잡한 요청 처리·외부 도구 호출·맥락 유지가 가능하며 컨텍스트 윈도우가 기존 3만 2,000토큰에서 12만 8,000토큰으로 4배 확장됐다. GPT-리얼타임-트랜슬레이트는 화자의 속도에 맞춰 70개 이상 입력 언어를 13개 출력 언어로 실시간 통역한다. GPT-리얼타임-위스퍼는 발화와 동시에 텍스트를 생성하는 저지연 실시간 전사 모델로, 라이브 자막·회의록 등에 활용된다.
이미 질로우, 프라이스라인, 도이치텔레콤 등이 테스트에 참여하고 있다. 가격은 GPT-리얼타임-2가 오디오 입력 토큰 100만 개당 32달러(약 4만 6,000원), 트랜슬레이트는 분당 0.034달러(약 49원), 위스퍼는 분당 0.017달러(약 25원)이다.
