오픈AI의 역습: 구글 제미나이에 밀린 자존심 회복 나섰다

샘 올트먼이 이끄는 오픈AI가 비상경보를 울린 지 며칠 만에 새로운 AI 모델을 세상에 내놨다. 회사는 이번 GPT-5.2를 두고 "실무에서 가장 쓸모있는 모델"이라는 표현을 사용했다.

이번 조치는 구글의 맹추격에 대한 방어막이자, 잃어버린 기술 우위를 되찾기 위한 전략적 대응으로 해석된다. 올트먼은 내부 메시지를 통해 여러 신규 사업을 잠정 중단하고, 챗GPT의 속도와 정확도 개선에 역량을 집중하라고 지시한 바 있다.

구글의 제미나이 3는 최근 여러 평가에서 높은 점수를 받으며 시장의 주목을 받았고, 월 사용자 수도 6억 명을 넘어섰다. 오픈AI가 공개한 자료에 따르면 챗GPT는 주간 기준 8억 명 수준의 이용자를 보유하고 있어, 양사 간 격차는 생각보다 좁혀진 상태다.

새로 선보인 모델은 용도에 따라 세 가지 버전으로 나뉜다. 빠른 답변에 집중한 '인스턴트', 복잡한 문제 해결용 '씽킹', 그리고 최고 난이도 작업을 위한 '프로'가 그것이다.

오픈AI 측은 이번 시리즈가 업무 현장에서 요구되는 다양한 작업 - 데이터 정리, 발표자료 제작, 프로그래밍, 이미지 분석, 긴 문서 독해, 도구 연동, 여러 단계를 거치는 프로젝트 관리 등 - 에서 이전보다 나은 결과를 낸다고 설명했다.

기존 버전 대비 개선된 부분은 일반적인 지능 수준, 코드 작성 능력, 그리고 많은 양의 정보를 처리하는 능력이다. 우선 유료 구독자와 API 사용자를 대상으로 단계적으로 적용되며, 기존 모델들도 일정 기간 함께 제공될 예정이다.

전문가보다 11배 빠른 작업 처리, 오류는 대폭 감소

회사 내부 평가 도구인 'GDPval'을 활용한 테스트 결과, 씽킹 버전은 44개 직종의 실제 업무를 인간 전문가와 비교했을 때 70% 이상의 과제에서 동등하거나 더 나은 성과를 보였다. 작업 완료까지 걸리는 시간은 사람보다 평균 11배 짧았다.

AI의 고질적 문제로 꼽히는 '환각(허위 정보 생성)' 현상도 상당히 줄었다. 담당 임원인 맥스 슈바르처는 사실 확인이 중요한 질문에서 이전 버전 대비 오류율이 38% 낮아졌다고 밝혔다. 회사는 이를 통해 일상적인 정보 탐색과 전문 업무 모두에서 신뢰성이 높아졌다고 주장한다.

외신 더버지는 오픈AI가 이번 모델을 "일상적인 전문 업무에 최적화된 가장 우수한 모델"로 소개했으며, 노션, 쇼피파이, 줌, 데이터브릭스 같은 기업들이 사전 테스트에 참여했다고 전했다.

단순 챗봇 넘어 '일하는 AI' 경쟁 본격화

GPT-5.2는 대화형 서비스를 넘어, 업무를 스스로 처리하는 '에이전트형 AI' 시장을 겨냥한 무기로도 자리매김하고 있다.

공식 블로그를 통해 오픈AI는 새 모델이 도구 연결, 외부 시스템과의 연동, 여러 단계로 구성된 작업 실행 등에 강점을 갖췄다고 설명했다. 기업 입장에서는 고객 대응, 문서 자동화, 데이터 분석, 개발 과정 등 여러 영역에서 '반복 작업을 대신하는 AI 직원'처럼 활용할 수 있게 된다는 의미다.

안전성과 윤리 문제에 대한 대응도 강화됐다. 오픈AI는 자해, 우울감, 모델에 대한 지나친 의존 등을 암시하는 입력에 대해 더욱 세심한 보호 장치를 적용했다고 밝혔다.

지난 10월 발표된 보고서에서는 매주 100만 명 이상의 사용자가 자살 관련 고민을 챗GPT에게 털어놓는 것으로 추정된다는 내용이 포함됐다. 같은 달 정신 건강 프로젝트 담당 연구자가 퇴사하면서, AI 챗봇과 정신 건강의 관계를 둘러싼 논쟁이 더욱 확산됐다.

미성년자 보호 기능도 한층 강화된다. 일부 국가에서는 사용자의 나이를 추정해 청소년으로 판단되는 경우 자동으로 콘텐츠 제한을 강화하는 '나이 예측' 기능을 시험 중이라고 회사 측은 설명했다.

동시에 2026년 1분기에는 성인 전용 '어른 모드'를 도입할 계획인데, 올트먼은 과거 이 모드에서 18세 이상 대상의 성적인 대화까지 허용할 수 있다고 언급한 바 있다.

GPT-5.2는 우선 챗GPT 유료 이용자(플러스·프로·고·엔터프라이즈)에게 단계적으로 제공된다. 서비스 안정성 확보를 위해 점진적으로 배포하며, 일정 기간 이전 버전인 GPT-5.1도 '레거시' 옵션으로 함께 제공한다는 방침이다. 이후 수개월 안에 GPT-5.1은 단계적으로 종료될 예정이다.

이번 GPT-5.2는 벤치마크 지표와 기능 측면에서 구글 제미나이 3에 맞서는 '정면 대결 카드'이자, 에이전트 AI, 정신 건강 문제, 미성년자 보호 등 복잡한 과제를 동시에 풀어야 하는 오픈AI의 현재 상황을 보여준다. 기술적 우위만큼 중요한 것은 이 모델이 실제 업무 생산성과 사용자 신뢰를 얼마나 빠르게 끌어올릴 수 있느냐, 그리고 규제와 윤리 논쟁 속에서 어디까지 확장될 수 있느냐는 점이다.

GPT-5.2 출시는 올트먼이 사내 메모를 통해 챗GPT 품질 개선을 최우선 과제로 못 박은 뒤 며칠 만에 이뤄졌다. 이 메모에서 올트먼은 광고·쇼핑 에이전트·개인 비서 ‘펄스(Pulse)’ 등 여러 프로젝트를 미루고, 챗GPT 속도·정확도·신뢰성을 끌어올리는 데 인력을 재배치하겠다고 밝혔다.

이번 조치는 구글의 제미나이 3가 여러 언어 모델 벤치마크에서 상위권을 차지하고, 제미나이 앱이 6억5000만 월간 이용자(MAU)를 확보하는 등 공세를 펼치고 있는 상황과 맞물린다. 오픈AI가 공개한 수치에 따르면 챗GPT는 주간 활성 이용자(WAU) 8억 명 수준으로 두 서비스 간 격차는 크지 않다.

GPT-5.2는 세 가지 모델로 구성된다. 인스턴트(Instant), 씽킹(Thinking), 프로(Pro)다. 인스턴트는 빠른 응답과 정보 검색에 초점을 맞춘 속도형 모델이고, 씽킹은 코딩·수학·장문 분석·계획 수립 등 복잡한 작업용, 프로는 가장 어려운 질문과 고급 업무를 위한 최고 등급 모델이다.

오픈AI는 GPT-5.2 전체 시리즈가 스프레드시트 작성, 프레젠테이션 구성, 코드 작성, 이미지 해석, 긴 문서 이해, 도구 활용, 복잡한 다단계 프로젝트 관리 등 ‘현실 업무 시나리오’에서 성능이 개선됐다고 밝혔다.

새 모델은 기존 GPT-5.1보다 일반 지능과 코딩 능력, 긴 문맥 처리 능력이 향상됐으며, 우선 챗GPT 유료 구독 플랜과 API 고객을 대상으로 순차 적용된다. 기존 GPT-5.1과 GPT-5 등은 일정 기간 API에서 병행 제공된다.

인간보다 11배 빠른 처리·환각 38% 감소

오픈AI 내부 벤치마크 ‘GDPval’ 결과에 따르면, GPT-5.2 씽킹 모델은 44개 직군의 실제 업무 과제를 놓고 인간 전문가와 비교했을 때, 과제의 70% 이상에서 인간보다 좋은 결과를 냈다. 처리 속도는 평균 11배 빨랐다.

환각(hallucination) 감소도 핵심 개선 포인트다. 오픈AI 포스트 트레이닝 리더 맥스 슈바르처는 사실 기반 질문 응답 벤치마크에서 GPT-5.2 씽킹이 GPT-5.1 대비 환각률을 38% 줄였다고 설명했다. 회사는 이를 통해 “일상적인 정보 검색과 고급 업무 모두에서 신뢰도가 높아졌다”고 주장한다.

더버지는 오픈AI가 GPT-5.2를 “일상적인 전문 업무용으로 지금까지 만든 것 중 가장 뛰어난 모델”이라고 소개했다며, 노션, 쇼피파이, 줌, 데이터브릭스 등이 사전 테스트에 참여했다고 전했다.

에이전트 전쟁 겨냥… “워크플로우 자동화의 중심”

GPT-5.2는 단순한 대화형 챗봇이 아니라, ‘에이전트(Agentic AI)’ 경쟁의 핵심 무기로도 포지셔닝되고 있다.

오픈AI는 공식 블로그에서 GPT-5.2가 도구 호출, 외부 시스템 연동, 다단계 작업 수행 등 에이전트 워크플로우에 최적화됐다고 밝혔다. 기업 입장에서는 고객 응대, 문서 자동화, 데이터 분석, 개발 워크플로우 등 다양한 영역에서 ‘반복 업무를 맡기는 AI 직원’에 가까운 활용이 가능해지는 셈이다.

오픈AI는 GPT-5.2 출시와 함께 안전성·윤리 이슈 대응도 강조하고 있다. 회사는 GPT-5.2가 자해·우울·모델에 대한 과도한 감정 의존 등 신호가 담긴 프롬프트에 더 강력한 보호 장치를 적용하도록 조정했다고 밝혔다.

오픈AI가 10월 공개한 보고서에서는 매주 100만 명이 넘는 이용자가 자살 관련 고민을 챗GPT에 털어놓는 것으로 추정된다는 내용도 포함됐다. 같은 달 정신 건강 프로젝트를 이끌던 연구 리더가 퇴사를 알리면서, 챗봇과 멘탈헬스의 관계를 둘러싼 논쟁은 더 커졌다.

연령 보호 장치도 강화한다. 오픈AI는 일부 국가에서 이용자의 연령대를 추정해 미성년자로 보이는 사용자에게 자동으로 더 강한 콘텐츠 제한을 걸어주는 ‘나이 예측(age-prediction)’ 모델을 시험 도입 중이라고 밝혔다.

동시에 2026년 1분기에는 성인만 사용할 수 있는 ‘성인 모드(adult mode)’를 도입할 계획인데, 올트먼은 과거 이 모드에서 18세 이상 대상의 에로틱한 대화까지 허용할 수 있다고 언급한 바 있다.

GPT-5.2는 우선 챗GPT 유료 이용자(플러스-프로-고-엔터프라이즈)에게 순차 적용된다. 오픈AI는 서비스 안정성을 위해 모델 배포를 점진적으로 진행하며, 일정 기간 GPT-5.1도 ‘레거시(legacy)’ 옵션으로 함께 제공한다는 방침이다. 이후 몇 달 안에 GPT-5.1을 단계적으로 종료할 계획이다.

GPT-5.2는 벤치마크 지표와 기능 면에서 구글 제미나이 3에 맞서는 ‘정면 승부 카드’이자, 에이전트·정신 건강·연령 보호 등 복잡한 과제를 동시에 풀어야 하는 오픈AI의 현재 위치를 보여준다. 기술적 우위만큼 중요한 것은 이 모델이 실제 업무 생산성과 사용자 신뢰를 얼마나 빠르게 끌어올릴 수 있느냐, 그리고 규제·윤리 논쟁 속에서 어디까지 확장될 수 있느냐다.

정재엽 기자

anihil@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

"문서 지옥이 싫었다"…비전공 공무원 혼자서 쓴 공직사회 AI 혁신

광진구청 류승인 주무관이 개발한 HWP 파서 'kordoc'과 법령 검색 MCP 서버 'korean-law-mcp'가 공직사회 AI 혁신 사례로 화제다. 비전공자 공무원의 바텀업 혁신, 두 도구 모두 오픈소스 무료 공개.

채용 공고부터 추천까지 한 번에…AI로 묶은 ‘통합 채용 허브’ 등장

잡코리아가 AI 기반 통합 채용 솔루션 ‘하이어링 센터’를 공개했다. 채용 공고 등록부터 지원자 관리, 커뮤니케이션, 운영 관리까지 전 과정을 하나의 환경에서 처리할 수 있도록 설계된 것이 핵심이다.

‘링크의 시대’에서 ‘답변의 시대’로…구글 ‘서치 라이브’가 바꾸는 검색의 질서

서치 라이브는 검색 결과를 읽는 경험보다, 검색과 ‘대화하는’ 경험에 가깝다. 사용자는 구글 앱 안에서 음성으로 질문을 이어가고, 필요하면 카메라로 사물을 비추며 실시간 도움을 받을 수 있다. 이는 검색이 단발성 쿼리에서 벗어나 문맥을 유지하는 세션형 인터페이스로 이동하고 있음을 보여준다.

‘AI’를 향한 아마존의 거대한 ‘20년 승부수’

[AI요약] 20년전 생소한 개념의 클라우드 컴퓨팅 서비스인 AWS를 출시한 후, 해당 서비스를 인터넷 기반 도구에 의존하는 거의 모든 기업에게 필수불가결한...