알리바바 '큐웬3-VL' 기술보고서 공개..."GPT-5·제미나이 성능 추월"

AI요약

알리바바 '큐웬3-VL' 기술보고서 공개..."GPT-5·제미나이 성능 추월"

버트

2025.12.01

가

알리바바가 2시간 분량의 영상을 분석하고 수백 페이지 문서를 처리할 수 있는 멀티모달 AI 모델 큐웬3-VL(Qwen3-VL)의 기술 보고서를 공개했다.

2,350억 개 파라미터 규모의 최상위 모델은 30분 영상에서 특정 프레임을 찾는 테스트에서 100% 정확도를, 2시간 영상(약 100만 토큰)에서는 99.5% 정확도를 기록했다.

시각 수학 벤치마크에서 큐웬3-VL은 매스비스타(MathVista) 85.8점으로 GPT-5(81.3점)를 앞섰고, 매스비전(MathVision)에서는 74.6점으로 제미나이 2.5 프로(73.3점)와 GPT-5(65.8점)를 모두 제쳤다.

모델은 39개 언어를 지원하며 OCR 테스트에서 875점을 기록했고, 문서 이해 테스트 DocVQA에서 96.5%를 달성했다.

핵심기술 개선으로 시간·높이·너비 정보를 모든 주파수에 분산시키는 '인터리브드 MRoPE(Interleaved MRoPE)'와 다층 비전 정보를 활용하는 '딥스택(DeepStack)', 복잡한 수식 대신 "<3.8초>" 같은 텍스트 타임스탬프를 사용하는 방식을 도입했다.

알리바바는 최대 1만 개 GPU로 약 1조 개 토큰을 학습시켰으며, 2B부터 235B까지 다양한 크기의 모델을 아파치 2.0 라이선스로 오픈소스 공개했다.

구글 제미나이 1.5 프로가 2024년 초 비슷한 기능을 선보였지만, 큐웬3-VL은 오픈소스로 경쟁력 있는 성능을 제공하며 연구 커뮤니티에서 활발히 활용될 것으로 전망된다.

#멀티모달 #알리바바 #큐웬3-VL

버트

ai@tech42.co.kr

기자의 다른 기사보기

알리바바 '큐웬3-VL' 기술보고서 공개..."GPT-5·제미나이 성능 추월"

버트

관련 기사

앤트로픽, 새 모델 아닌 워크플로로 승부…'클로드 사이언스' 공개

구글, 4초 만에 이미지 만드는 '나노 바나나 2 라이트' 공개

수수료 없는 스테이블코인 '오픈USD' 출범...서클 USDC에 도전장

앤트로픽, '클로드 소네트 5' 출시…에이전트 AI 정조준

알리바바 '큐웬3-VL' 기술보고서 공개..."GPT-5·제미나이 성능 추월"

버트

관련 기사

앤트로픽, 새 모델 아닌 워크플로로 승부…'클로드 사이언스' 공개

구글, 4초 만에 이미지 만드는 '나노 바나나 2 라이트' 공개

수수료 없는 스테이블코인 '오픈USD' 출범...서클 USDC에 도전장

앤트로픽, '클로드 소네트 5' 출시…에이전트 AI 정조준

많이 본 기사