중국 딥시크, 텍스트 10배 압축하는 OCR 공개

딥시크가 텍스트를 10배 압축하면서도 정확도 97%를 유지하는 OCR 시스템을 공개했다.

이 시스템은 이미지로 텍스트를 처리하는 것이 디지털 텍스트 자체를 처리하는 것보다 컴퓨팅 자원을 덜 사용한다는 아이디어에 기반하며, AI가 메모리 한계 없이 훨씬 긴 문서를 처리할 수 있도록 한다. 시스템은 이미지 처리를 담당하는 딥인코더(DeepEncoder)와 5억7000만 개의 활성 매개변수를 가진 딥시크3B-MoE 기반 텍스트 생성기로 구성되며, 딥인코더는 3억8000만 개의 매개변수로 각 이미지를 분석하고 압축 버전을 생성한다.

딥인코더는 메타의 8000만 매개변수 SAM 모델과 오픈AI의 3억 매개변수 CLIP을 결합하며, 그 사이에 16배 압축기가 이미지 토큰 수를 대폭 줄여 1024x1024 픽셀 이미지를 4096개 토큰에서 256개로 줄인다.

옴니닥벤치(OmniDocBench) 테스트에서 딥시크 OCR은 100개의 비전 토큰만으로 256개를 사용하는 GOT-OCR 2.0을 능가했으며, 800개 미만의 토큰으로 페이지당 6000개 이상의 토큰이 필요한 마이너U 2.0도 앞섰다. 실제 사용에서 딥시크 OCR은 단일 엔비디아 A100 GPU로 하루 20만 페이지 이상을 처리할 수 있으며, 각각 8개의 A100을 탑재한 20개 서버로는 하루 3300만 페이지까지 처리량이 증가한다. 연구진은 약 100개 언어의 3000만 PDF 페이지로 훈련했으며, 코드와 모델 가중치는 모두 공개되어 있다.

딥시크 OCR 깃허브 (https://github.com/deepseek-ai/DeepSeek-OCR)

앨리스

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

“몸값 3조 육박, K-엔비디아 떴다”… 리벨리온, 4억 달러 유치하며 미국 정조준

국내 AI 반도체 스타트업 리벨리온이 4억 달러(약 6,000억 원) 규모의 대규모 투자 유치에 성공하며 글로벌 시장 진출을 위한 ‘실탄’을 확보했다.

블루스카이 AI 도입에 유저 12만 명 ‘집단 차단’

탈(脫)중앙화 소셜미디어 블루스카이가 선보인 인공지능(AI) 비서 ‘아티(Attie)’가 출시와 동시에 사용자들의 거센 역풍을 맞고 있다.

"미국인 80% AI 우려, Z세대 가장 비관적"...미국 설문조사 결과

퀴니피액 대학 여론조사에서 미국인의 AI 활용률은 높아졌지만 신뢰도는 21%에 그쳤고, 70%는 AI가 일자리를 줄일 것으로 우려했다. Z세대의 비관론이 가장 강했다.

코파일럿 코워크, MS 프런티어 프로그램 통해 첫 공개…앤트 로픽 기술 탑재

마이크로소프트가 앤스로픽과 협력해 개발한 AI 업무 자동화 기능 '코파일럿 코워크'를 프런티어 조기 체험 프로그램으로 공개했다. 사용자가 목표를 설명하면 AI가 계획을 세우고 마이크로소프트 365 전반에서 작업을 직접 수행한다.