오픈AI, 실시간 음성 AI 3종 공개...추론·번역·전사 모델

오픈AI가 5월 7일, 개발자용 실시간 음성 AI 모델 3종을 리얼타임 API를 통해 공개했다. 세 모델은 각각 추론·번역·전사(텍스트 변환)를 전담하며, GPT-리얼타임-2, GPT-리얼타임-트랜슬레이트, GPT-리얼타임-위스퍼로 구성된다.

핵심 모델인 GPT-리얼타임-2는 GPT-5급 추론 능력을 갖춘 첫 음성 모델로, 대화 도중 복잡한 요청 처리·외부 도구 호출·맥락 유지가 가능하며 컨텍스트 윈도우가 기존 3만 2,000토큰에서 12만 8,000토큰으로 4배 확장됐다. GPT-리얼타임-트랜슬레이트는 화자의 속도에 맞춰 70개 이상 입력 언어를 13개 출력 언어로 실시간 통역한다. GPT-리얼타임-위스퍼는 발화와 동시에 텍스트를 생성하는 저지연 실시간 전사 모델로, 라이브 자막·회의록 등에 활용된다.

이미 질로우, 프라이스라인, 도이치텔레콤 등이 테스트에 참여하고 있다. 가격은 GPT-리얼타임-2가 오디오 입력 토큰 100만 개당 32달러(약 4만 6,000원), 트랜슬레이트는 분당 0.034달러(약 49원), 위스퍼는 분당 0.017달러(약 25원)이다.

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

“돈 내면 광고 안 본다”… 틱톡, 영어권 국가 최초로 영국서 유료 구독제 전격 도입

중국발 숏폼 플랫폼 틱톡(TikTok)이 영국에서 광고 없이 콘텐츠를 즐길 수 있는 유료 구독 서비스를 시작한다.

오픈AI, 사이버 보안 플랫폼 '데이브레이크' 출시…코덱스로 취약점 자동 탐지·패치

오픈AI가 AI 기반 사이버 보안 플랫폼 '데이브레이크'를 출시했다. 코덱스와 20여 개 보안사 파트너를 연계해 취약점 탐지부터 패치까지 자동화하는 기업용 방어 플랫폼이다.

“AI가 해킹 도구 직접 만들었다”… 구글, 인공지능 발굴 ‘제로데이’ 취약점 공격 세계 최초 포착

인공지능(AI)이 스스로 보안 취약점을 찾아내고 이를 공격할 수 있는 무기까지 직접 제작해 사이버 테러를 시도한 실사례가 전 세계 최초로 확인됐다.

앤트로픽 엔지니어 "AI 출력, 마크다운 말고 HTML 써야"

앤트로픽 클로드 코드 리드 타리크 시히파르가 AI 에이전트 출력 형식으로 HTML이 마크다운보다 낫다고 주장해 개발자 커뮤니티에서 화제가 되고 있다.