알리바바 '큐웬3-VL' 기술보고서 공개..."GPT-5·제미나이 성능 추월"

AI요약

알리바바 '큐웬3-VL' 기술보고서 공개..."GPT-5·제미나이 성능 추월"

버트

2025.12.01

가

알리바바가 2시간 분량의 영상을 분석하고 수백 페이지 문서를 처리할 수 있는 멀티모달 AI 모델 큐웬3-VL(Qwen3-VL)의 기술 보고서를 공개했다.

2,350억 개 파라미터 규모의 최상위 모델은 30분 영상에서 특정 프레임을 찾는 테스트에서 100% 정확도를, 2시간 영상(약 100만 토큰)에서는 99.5% 정확도를 기록했다.

시각 수학 벤치마크에서 큐웬3-VL은 매스비스타(MathVista) 85.8점으로 GPT-5(81.3점)를 앞섰고, 매스비전(MathVision)에서는 74.6점으로 제미나이 2.5 프로(73.3점)와 GPT-5(65.8점)를 모두 제쳤다.

모델은 39개 언어를 지원하며 OCR 테스트에서 875점을 기록했고, 문서 이해 테스트 DocVQA에서 96.5%를 달성했다.

핵심기술 개선으로 시간·높이·너비 정보를 모든 주파수에 분산시키는 '인터리브드 MRoPE(Interleaved MRoPE)'와 다층 비전 정보를 활용하는 '딥스택(DeepStack)', 복잡한 수식 대신 "<3.8초>" 같은 텍스트 타임스탬프를 사용하는 방식을 도입했다.

알리바바는 최대 1만 개 GPU로 약 1조 개 토큰을 학습시켰으며, 2B부터 235B까지 다양한 크기의 모델을 아파치 2.0 라이선스로 오픈소스 공개했다.

구글 제미나이 1.5 프로가 2024년 초 비슷한 기능을 선보였지만, 큐웬3-VL은 오픈소스로 경쟁력 있는 성능을 제공하며 연구 커뮤니티에서 활발히 활용될 것으로 전망된다.

#멀티모달 #알리바바 #큐웬3-VL

버트

ai@tech42.co.kr

기자의 다른 기사보기

알리바바 '큐웬3-VL' 기술보고서 공개..."GPT-5·제미나이 성능 추월"

버트

관련 기사

삼성, 멀미 완화 앱 '히어라피' 출시...이어폰으로 60초 들으면 2시간 효과

“남들 다 포기할 때 거꾸로 간다”… 토요타, 볼보·다임러와 ‘수소 동맹’ 전격 결성

이란, 애플·구글·마이크로소프트 등 미국 기업 18곳 타격 경고

음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

알리바바 '큐웬3-VL' 기술보고서 공개..."GPT-5·제미나이 성능 추월"

버트

관련 기사

삼성, 멀미 완화 앱 '히어라피' 출시...이어폰으로 60초 들으면 2시간 효과

“남들 다 포기할 때 거꾸로 간다”… 토요타, 볼보·다임러와 ‘수소 동맹’ 전격 결성

이란, 애플·구글·마이크로소프트 등 미국 기업 18곳 타격 경고

음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

많이 본 기사