알리바바 '큐웬3-VL' 기술보고서 공개..."GPT-5·제미나이 성능 추월"

알리바바가 2시간 분량의 영상을 분석하고 수백 페이지 문서를 처리할 수 있는 멀티모달 AI 모델 큐웬3-VL(Qwen3-VL)의 기술 보고서를 공개했다.

2,350억 개 파라미터 규모의 최상위 모델은 30분 영상에서 특정 프레임을 찾는 테스트에서 100% 정확도를, 2시간 영상(약 100만 토큰)에서는 99.5% 정확도를 기록했다.

시각 수학 벤치마크에서 큐웬3-VL은 매스비스타(MathVista) 85.8점으로 GPT-5(81.3점)를 앞섰고, 매스비전(MathVision)에서는 74.6점으로 제미나이 2.5 프로(73.3점)와 GPT-5(65.8점)를 모두 제쳤다.

모델은 39개 언어를 지원하며 OCR 테스트에서 875점을 기록했고, 문서 이해 테스트 DocVQA에서 96.5%를 달성했다.

핵심기술 개선으로 시간·높이·너비 정보를 모든 주파수에 분산시키는 '인터리브드 MRoPE(Interleaved MRoPE)'와 다층 비전 정보를 활용하는 '딥스택(DeepStack)', 복잡한 수식 대신 "<3.8초>" 같은 텍스트 타임스탬프를 사용하는 방식을 도입했다.

알리바바는 최대 1만 개 GPU로 약 1조 개 토큰을 학습시켰으며, 2B부터 235B까지 다양한 크기의 모델을 아파치 2.0 라이선스로 오픈소스 공개했다.

구글 제미나이 1.5 프로가 2024년 초 비슷한 기능을 선보였지만, 큐웬3-VL은 오픈소스로 경쟁력 있는 성능을 제공하며 연구 커뮤니티에서 활발히 활용될 것으로 전망된다.

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

삼성, 멀미 완화 앱 '히어라피' 출시...이어폰으로 60초 들으면 2시간 효과

삼성이 이어폰으로 멀미를 완화하는 무료 앱 '히어라피'를 출시했다. 100Hz 저음 사인파를 60초간 들으면 최대 2시간 멀미 증상이 억제되며, 갤럭시 버즈4 프로 외 타사 이어폰에서도 사용 가능하다.

“남들 다 포기할 때 거꾸로 간다”… 토요타, 볼보·다임러와 ‘수소 동맹’ 전격 결성

세계 최대 자동차 기업 토요타가 전기차로 쏠린 업계 흐름에 맞서 수소 연료전지 시장에 승부수를 던졌다.

이란, 애플·구글·마이크로소프트 등 미국 기업 18곳 타격 경고

이란 혁명수비대(IRGC)가 애플·구글·마이크로소프트 등 미국 기업 18곳을 중동에서 타격하겠다고 경고했다. 4월 1일 오후 8시(테헤란 기준)를 데드라인으로 제시하며 직원 대피를 촉구했다.

음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

메타가 레이밴(Ray-Ban)의 모회사 에실로룩소티카와 협력해 인공지능(AI) 기능을 대폭 강화한 차세대 스마트 안경 ‘옵틱스(Optics)’ 라인업을 선보였다.