중국 딥시크, 텍스트 10배 압축하는 OCR 공개

딥시크가 텍스트를 10배 압축하면서도 정확도 97%를 유지하는 OCR 시스템을 공개했다.

이 시스템은 이미지로 텍스트를 처리하는 것이 디지털 텍스트 자체를 처리하는 것보다 컴퓨팅 자원을 덜 사용한다는 아이디어에 기반하며, AI가 메모리 한계 없이 훨씬 긴 문서를 처리할 수 있도록 한다. 시스템은 이미지 처리를 담당하는 딥인코더(DeepEncoder)와 5억7000만 개의 활성 매개변수를 가진 딥시크3B-MoE 기반 텍스트 생성기로 구성되며, 딥인코더는 3억8000만 개의 매개변수로 각 이미지를 분석하고 압축 버전을 생성한다.

딥인코더는 메타의 8000만 매개변수 SAM 모델과 오픈AI의 3억 매개변수 CLIP을 결합하며, 그 사이에 16배 압축기가 이미지 토큰 수를 대폭 줄여 1024x1024 픽셀 이미지를 4096개 토큰에서 256개로 줄인다.

옴니닥벤치(OmniDocBench) 테스트에서 딥시크 OCR은 100개의 비전 토큰만으로 256개를 사용하는 GOT-OCR 2.0을 능가했으며, 800개 미만의 토큰으로 페이지당 6000개 이상의 토큰이 필요한 마이너U 2.0도 앞섰다. 실제 사용에서 딥시크 OCR은 단일 엔비디아 A100 GPU로 하루 20만 페이지 이상을 처리할 수 있으며, 각각 8개의 A100을 탑재한 20개 서버로는 하루 3300만 페이지까지 처리량이 증가한다. 연구진은 약 100개 언어의 3000만 PDF 페이지로 훈련했으며, 코드와 모델 가중치는 모두 공개되어 있다.

딥시크 OCR 깃허브 (https://github.com/deepseek-ai/DeepSeek-OCR)

앨리스

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

로켓랩, 이리듐 12조원에 인수…스페이스X 대항마 탄생하나

로켓랩이 위성통신 기업 이리듐을 약 12조 3,000억원(80억 달러)에 인수한다. 저궤도 위성 66기와 255만 가입자를 확보, 스페이스X에 맞서는 우주 수직통합 기업으로 도약한다.

스트래티지, 비트코인 매수 전면 중단...13조원 평가손실에 동반 폭락

스트래티지가 1주일간 비트코인 매수를 전면 중단했다. 847,363개 보유 코인은 약 20조원의 평가손실 상태이며, MSTR은 고점 대비 82% 폭락, STRC는 사상 최저치를 기록했다.

"구글 위치 데이터 요청, 수색영장 필수"…미 연방대법원 6대 3 판결

미 연방대법원이 6대 3으로 지오펜스 영장을 수정헌법 4조상 '수색'으로 규정했다. 경찰은 이제 구글 등에 위치 데이터를 요청할 때 반드시 영장을 받아야 한다.

일론 머스크의 소송에서 이겼다...테슬라 출신 '로봇 손' 스타트업, 150억 대박 투자 유치

테슬라의 휴머노이드 로봇 '옵티머스' 개발진 출신이 설립한 로봇 기술 스타트업 프로셉션(Proception)이 친정 통과의례였던 법정 공방을 끝내고 대규모 투자 유치에 성공했다.