알리바바 '큐웬3-VL' 기술보고서 공개..."GPT-5·제미나이 성능 추월"

알리바바가 2시간 분량의 영상을 분석하고 수백 페이지 문서를 처리할 수 있는 멀티모달 AI 모델 큐웬3-VL(Qwen3-VL)의 기술 보고서를 공개했다.

2,350억 개 파라미터 규모의 최상위 모델은 30분 영상에서 특정 프레임을 찾는 테스트에서 100% 정확도를, 2시간 영상(약 100만 토큰)에서는 99.5% 정확도를 기록했다.

시각 수학 벤치마크에서 큐웬3-VL은 매스비스타(MathVista) 85.8점으로 GPT-5(81.3점)를 앞섰고, 매스비전(MathVision)에서는 74.6점으로 제미나이 2.5 프로(73.3점)와 GPT-5(65.8점)를 모두 제쳤다.

모델은 39개 언어를 지원하며 OCR 테스트에서 875점을 기록했고, 문서 이해 테스트 DocVQA에서 96.5%를 달성했다.

핵심기술 개선으로 시간·높이·너비 정보를 모든 주파수에 분산시키는 '인터리브드 MRoPE(Interleaved MRoPE)'와 다층 비전 정보를 활용하는 '딥스택(DeepStack)', 복잡한 수식 대신 "<3.8초>" 같은 텍스트 타임스탬프를 사용하는 방식을 도입했다.

알리바바는 최대 1만 개 GPU로 약 1조 개 토큰을 학습시켰으며, 2B부터 235B까지 다양한 크기의 모델을 아파치 2.0 라이선스로 오픈소스 공개했다.

구글 제미나이 1.5 프로가 2024년 초 비슷한 기능을 선보였지만, 큐웬3-VL은 오픈소스로 경쟁력 있는 성능을 제공하며 연구 커뮤니티에서 활발히 활용될 것으로 전망된다.

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

앤트로픽, 새 모델 아닌 워크플로로 승부…'클로드 사이언스' 공개

앤트로픽이 새 모델이 아닌 작업 환경으로 과학자를 공략한다. 클로드 사이언스는 기존 클로드 모델로 60개 이상 데이터베이스를 연결하고, 팩트체크 AI로 인용과 계산을 검증한다.

구글, 4초 만에 이미지 만드는 '나노 바나나 2 라이트' 공개

구글이 가장 빠르고 저렴한 이미지 생성 모델 나노 바나나 2 라이트와 영상 생성·편집 모델 제미나이 옴니 플래시를 개발자에 공개했다. 이미지는 4초, 영상은 초당 약 155원으로 제작 가능하다.

수수료 없는 스테이블코인 '오픈USD' 출범...서클 USDC에 도전장

비자·스트라이프·코인베이스·마스터카드·블랙록 등 140여 개 기업이 준비금 수익을 나누는 새 스테이블코인 '오픈USD' 컨소시엄에 합류했다. 수수료·물량 한도 없이 올해 하반기 출시 예정.

앤트로픽, '클로드 소네트 5' 출시…에이전트 AI 정조준

앤트로픽이 자율 작업형 AI '클로드 소네트 5'를 공개했다. 무료·프로 기본 모델로 탑재되고, 가격은 오퍼스 4.8보다 저렴하다.