OCR을 넘어 VLM 시대로: 엘리스그룹의 '헬피 도큐먼트 비전' 출시가 보여주는 기술 진화의 현주소

기존 상용 솔루션 대비 분석 시간 33.6초→9.8초…기업 생산성 향상
자체 VLM ‘Helpy Table Vision’ 기반으로 고문서·대용량 엑셀까지 자동 분석
격화되는 AI 문서 분석 솔루션 전쟁, 각각의 기술적 특장점은? 

AI 풀스택 기업 엘리스그룹은 복잡한 문서를 자동 분석하는 'Helpy Document Vision(헬피 도큐먼트 비전)'을 출시했다고 29일 밝혔다. 주목할 점은 단순한 제품 출시가 아니라, 이 솔루션이 담고 있는 기술적 패러다임의 전환이다. 문서 분석 기술이 단순 문자 인식(OCR)에서 의미 이해(VLM)로 진화하는 현장에서, 국내 기업들이 글로벌 빅테크와 어깨를 나란히 하며 경쟁하고 있다.

30년 OCR 역사를 뒤집은 '시각언어모델' 혁명

문서 분석 기술의 역사는 광학문자인식(OCR)과 함께 시작됐다. 1990년대 초반 스캔 문서의 텍스트를 디지털로 변환하는 단순한 작업에서 출발해, 2000년대 들어 필기체 인식과 다국어 지원으로 발전했다. 그러나 OCR의 본질적 한계는 명확했다. "문자는 읽지만, 의미는 모른다"는 점이었다.

예를 들어 기존 OCR은 계약서에서 "2026년 1월 29일"이라는 텍스트를 추출할 수 있지만, 이것이 계약 개시일인지 만료일인지 구분하지 못했다. 표와 도장이 섞인 복잡한 문서에서는 읽는 순서조차 파악하지 못해 "회사명-금액-날짜" 순서가 뒤죽박죽 되는 일이 빈번했다.

2023년부터 상황이 급변했다. GPT-4V, 구글의 Gemini Vision 같은 Vision Language Model(VLM)이 등장하면서 문서 분석의 패러다임이 전환됐다. VLM은 이미지와 텍스트를 동시에 이해하는 멀티모달 AI로, 문서의 '시각적 구조'와 '언어적 의미'를 함께 파악한다.

국내 기업들의 '문서 전쟁': 각자의 무기는?

[주요 국내 AI 문서 분석 솔루션 비교]

기업제품명핵심 기술주요 강점타깃 시장
엘리스그룹Helpy Document VisionVLM (Helpy Table Vision)테이블 특화, 처리속도 3.4배, 도메인 최적화제조, 금융, 의료 등 산업별 특화
업스테이지Document ParseSolar LLM + OCR100페이지 1분 처리, 구조 분석 강점금융, 통신 대기업
한국딥러닝DEEP OCR+VLM 기반인식정확도 99%, 별도 학습 불필요금융권 비정형 문서
네이버CLOVA OCR엔드투엔드 OCR한글 손글씨 세계 최고, 범용성플랫폼 범용 시장

국내 AI 문서 분석 시장은 크게 세 그룹으로 나뉜다. 플랫폼 강자(네이버), 전문 스타트업(업스테이지, 한국딥러닝), 그리고 인프라 기업(엘리스그룹)이다.

네이버 클로바 OCR은 지난해 9월 글로벌 문자인식 대회에서 1위를 차지하며 기술력을 입증했다. 네이버클라우드는 '엔드 투 엔드' 방식으로 텍스트와 좌표를 동시 추출해 속도와 정확도를 모두 잡았다. 특히 한글 손글씨 인식에서 세계 최고 수준의 정확도를 자랑한다. 다만 플랫폼 범용성에 초점을 맞추다 보니 도메인 특화 최적화에서는 상대적으로 약점이 있다.

업스테이지는 'Document Parse'로 문서 파싱 시장의 강자로 떠올랐다. 업스테이지 공식 발표에 따르면 100페이지 문서를 1분 내 처리하는 압도적 속도가 특징이다. 자체 LLM인 Solar와 문서 인식 기술을 결합해 "문서의 구조를 이해하고 문장 간 관계를 파악"하는 차별화된 성능을 보인다. 아마존이 선택한 한국 AI 기업으로, 이미 금융·통신 대기업들과 협업을 진행 중이다.

한국딥러닝은 'DEEP OCR+'로 VLM 기반 문서 분석의 선두주자로 평가받는다. 한국딥러닝 공식 자료에 따르면 자체 테스트에서 인식 정확도 99%를 기록해 Google OCR 대비 5% 높은 성능을 보였다. 특히 "별도 학습 없이 다양한 문서 처리가 가능"한 점이 강점이다. 금융권에서 46종 비정형 문서 자동 분할·분류에 성공하며 실전 성능을 증명했다.

엘리스그룹의 차별점: '풀스택 AI' 전략

이번에 출시된 엘리스그룹의 '헬피 도큐먼트 비전'은 독특한 포지셔닝을 취한다. 경쟁사들이 소프트웨어 솔루션에 집중한다면, 엘리스는 인프라부터 모델 개발, 서비스까지 통합한 'AI 풀스택' 전략을 내세운다.

핵심은 자체 VLM인 'Helpy Table Vision'이다. 글로벌 벤치마크 Nanonets에서 업계 1위를 기록한 이 모델은 테이블 데이터 처리에 특화됐다. "수백 행의 엑셀 문서 분석, 차트 데이터 복원, 복잡한 수식 기호화"까지 가능하다. 성능도 눈에 띈다. 기존 상용 솔루션이 문서 분석에 평균 33.6초 걸린 반면, 헬피 도큐먼트 비전은 9.8초로 3.4배 빠르다.

엘리스그룹 김수인 CRO는 "엘리스클라우드라는 자체 GPU 인프라를 기반으로 빠른 최적화와 안정적 성능을 구현했다"며 "도메인별 특수 문서에 맞춘 빠른 커스터마이징이 가능하다"고 강조했다. 실제로 고문서나 근현대사 문서처럼 일반 모델이 인식하기 어려운 영역도 "수백 건 수준의 데이터 학습만으로 정확히 분석"할 수 있다는 설명이다.

더 주목할 점은 장기 비전이다. 엘리스는 VLM을 넘어 'Vision-Language-Action(VLA)' 모델로 진화시킬 계획이다. VLA는 "AI가 매뉴얼을 보고 로봇을 제어"하는 '피지컬 AI' 기술로, 제조 현장의 자동화까지 염두에 둔 전략이다.

급성장하는 시장, 기술 격차는 줄어들고 경쟁은 치열해진다

시장 전망은 폭발적이다. Fortune Business Insights 보고서에 따르면 지능형 문서처리(IDP) 시장은 2026년 141억 6000만달러에서 2034년 910억 2000만달러로 성장, 연평균 26.2% 성장률을 보일 것으로 예상된다.

성장 동력은 명확하다. 기업 내 비정형 데이터가 폭증하면서 이를 AI가 활용 가능한 구조화된 데이터로 전환하는 수요가 급증하고 있다. 특히 RAG(검색 증강 생성)와 AI 에이전트 시스템이 확산되면서 고품질 문서 데이터의 중요성이 더욱 커졌다.

흥미로운 점은 기술 격차가 빠르게 좁혀지고 있다는 사실이다. 불과 2~3년 전만 해도 구글, 마이크로소프트 같은 빅테크가 압도적 우위를 점했지만, 이제 국내 기업들도 글로벌 벤치마크에서 최상위 성적을 기록한다. 오픈소스 VLM의 발전과 특화된 도메인 데이터의 축적이 기술 민주화를 이끌고 있다.

앞으로의 경쟁은 "누가 더 범용적인 문서를 인식하느냐"가 아니라 "특정 산업의 문서를 얼마나 정확하고 빠르게 처리하느냐"로 옮겨갈 것으로 보인다. 금융권의 계약서, 제조업의 설계 도면, 의료계의 진료 기록처럼 도메인 특화 데이터에 대한 최적화 능력이 승부처가 될 전망이다.

그런 의미에서 엘리스그룹의 헬피 도큐먼트 비전 출시는 단순한 제품 론칭이 아니다. OCR에서 VLM으로, 범용 솔루션에서 도메인 특화로, 소프트웨어에서 풀스택 인프라로 진화하는 AI 문서 분석 시장의 현주소를 보여주는 사례다. 이제 문서 분석 기술 전쟁은 본격적으로 시작됐다.

조상돈 기자

james@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

PFCT, 중금리 대출 부실 예측 AI 특허 등록…에어팩 기술 독창성 인정

AI 기술금융사 피에프씨테크놀로지스(PFCT)가 금융 특화 버티컬 AI 인프라 ‘에어팩(AIRPACK)’에 적용한 중금리 대출 부실 리스크 예측 기술로 특허를 등록했다. PFCT는 이번 특허 등록을 통해 에어팩의 핵심 기술 구현 방식과 독창성을 추가로 인정받았다고 30일 밝혔다.

[현장] 전력·냉각·보안부터 로봇·바이오까지… KAIST 딥테크 스타트업이 제시한 AI 시대 생존 전략

KAIST 창업원이 주최·주관한 ‘KAIST Startup Scaleup Summit 2026’이 지난 18일 서울 코엑스 3층 컨퍼런스홀 E5·E6에서 열렸다. 넥스트라이즈 2026 서울(NextRise 2026, Seoul) 파트너 행사로 마련된 이 행사는 KAIST 스타트업 성장 공동체를 기반으로 투자사와 창업자, 기술 인재가 만나는 스케일업의 장을 표방했다.

삼쩜삼, 전사 AI 전환 속도…개발·비개발 경계 낮춘 ‘AI 위크’ 열어

자비스앤빌런즈, AI 위크 2026 개최…10개 세션서 실무 적용 사례 공유 사내 데이터 분석 도구 ‘로키’ 주목…비개발자도 자연어로 데이터 활용 AI...

GPT-5.6은 제한 공개, 제미나이는 사용 제한…AI 경쟁은 ‘접근권 전쟁’으로 바뀌었다

생성형 AI 주도권 경쟁의 상황이 급변하고 있다. 최근까지 시장의 관심은 누가 더 강력한 모델을 먼저 공개하느냐에 집중됐다. 그러나 최근 오픈AI(OpenAI), 앤트로픽(Anthropic), 구글(Google), 메타(Meta)를 둘러싼 변화는 양상이 다르다. 이제 중요한 것은 모델 성능만이 아니다. 누가 최상위 모델에 접근할 수 있는지, 어느 기업이 충분한 컴퓨트(compute)를 배정받을 수 있는지, 또 어떤 조직이 정부와 플랫폼 기업이 요구하는 신뢰 기준을 충족할 수 있는지가 AI 경쟁의 핵심 변수로 떠오르고 있다.