알리바바가 2시간 분량의 영상을 분석하고 수백 페이지 문서를 처리할 수 있는 멀티모달 AI 모델 큐웬3-VL(Qwen3-VL)의 기술 보고서를 공개했다.
2,350억 개 파라미터 규모의 최상위 모델은 30분 영상에서 특정 프레임을 찾는 테스트에서 100% 정확도를, 2시간 영상(약 100만 토큰)에서는 99.5% 정확도를 기록했다.
시각 수학 벤치마크에서 큐웬3-VL은 매스비스타(MathVista) 85.8점으로 GPT-5(81.3점)를 앞섰고, 매스비전(MathVision)에서는 74.6점으로 제미나이 2.5 프로(73.3점)와 GPT-5(65.8점)를 모두 제쳤다.
모델은 39개 언어를 지원하며 OCR 테스트에서 875점을 기록했고, 문서 이해 테스트 DocVQA에서 96.5%를 달성했다.
핵심기술 개선으로 시간·높이·너비 정보를 모든 주파수에 분산시키는 '인터리브드 MRoPE(Interleaved MRoPE)'와 다층 비전 정보를 활용하는 '딥스택(DeepStack)', 복잡한 수식 대신 "<3.8초>" 같은 텍스트 타임스탬프를 사용하는 방식을 도입했다.
알리바바는 최대 1만 개 GPU로 약 1조 개 토큰을 학습시켰으며, 2B부터 235B까지 다양한 크기의 모델을 아파치 2.0 라이선스로 오픈소스 공개했다.
구글 제미나이 1.5 프로가 2024년 초 비슷한 기능을 선보였지만, 큐웬3-VL은 오픈소스로 경쟁력 있는 성능을 제공하며 연구 커뮤니티에서 활발히 활용될 것으로 전망된다.
