OCR을 넘어 VLM 시대로: 엘리스그룹의 '헬피 도큐먼트 비전' 출시가 보여주는 기술 진화의 현주소

기존 상용 솔루션 대비 분석 시간 33.6초→9.8초…기업 생산성 향상
자체 VLM ‘Helpy Table Vision’ 기반으로 고문서·대용량 엑셀까지 자동 분석
격화되는 AI 문서 분석 솔루션 전쟁, 각각의 기술적 특장점은? 

AI 풀스택 기업 엘리스그룹은 복잡한 문서를 자동 분석하는 'Helpy Document Vision(헬피 도큐먼트 비전)'을 출시했다고 29일 밝혔다. 주목할 점은 단순한 제품 출시가 아니라, 이 솔루션이 담고 있는 기술적 패러다임의 전환이다. 문서 분석 기술이 단순 문자 인식(OCR)에서 의미 이해(VLM)로 진화하는 현장에서, 국내 기업들이 글로벌 빅테크와 어깨를 나란히 하며 경쟁하고 있다.

30년 OCR 역사를 뒤집은 '시각언어모델' 혁명

문서 분석 기술의 역사는 광학문자인식(OCR)과 함께 시작됐다. 1990년대 초반 스캔 문서의 텍스트를 디지털로 변환하는 단순한 작업에서 출발해, 2000년대 들어 필기체 인식과 다국어 지원으로 발전했다. 그러나 OCR의 본질적 한계는 명확했다. "문자는 읽지만, 의미는 모른다"는 점이었다.

예를 들어 기존 OCR은 계약서에서 "2026년 1월 29일"이라는 텍스트를 추출할 수 있지만, 이것이 계약 개시일인지 만료일인지 구분하지 못했다. 표와 도장이 섞인 복잡한 문서에서는 읽는 순서조차 파악하지 못해 "회사명-금액-날짜" 순서가 뒤죽박죽 되는 일이 빈번했다.

2023년부터 상황이 급변했다. GPT-4V, 구글의 Gemini Vision 같은 Vision Language Model(VLM)이 등장하면서 문서 분석의 패러다임이 전환됐다. VLM은 이미지와 텍스트를 동시에 이해하는 멀티모달 AI로, 문서의 '시각적 구조'와 '언어적 의미'를 함께 파악한다.

국내 기업들의 '문서 전쟁': 각자의 무기는?

[주요 국내 AI 문서 분석 솔루션 비교]

기업제품명핵심 기술주요 강점타깃 시장
엘리스그룹Helpy Document VisionVLM (Helpy Table Vision)테이블 특화, 처리속도 3.4배, 도메인 최적화제조, 금융, 의료 등 산업별 특화
업스테이지Document ParseSolar LLM + OCR100페이지 1분 처리, 구조 분석 강점금융, 통신 대기업
한국딥러닝DEEP OCR+VLM 기반인식정확도 99%, 별도 학습 불필요금융권 비정형 문서
네이버CLOVA OCR엔드투엔드 OCR한글 손글씨 세계 최고, 범용성플랫폼 범용 시장

국내 AI 문서 분석 시장은 크게 세 그룹으로 나뉜다. 플랫폼 강자(네이버), 전문 스타트업(업스테이지, 한국딥러닝), 그리고 인프라 기업(엘리스그룹)이다.

네이버 클로바 OCR은 지난해 9월 글로벌 문자인식 대회에서 1위를 차지하며 기술력을 입증했다. 네이버클라우드는 '엔드 투 엔드' 방식으로 텍스트와 좌표를 동시 추출해 속도와 정확도를 모두 잡았다. 특히 한글 손글씨 인식에서 세계 최고 수준의 정확도를 자랑한다. 다만 플랫폼 범용성에 초점을 맞추다 보니 도메인 특화 최적화에서는 상대적으로 약점이 있다.

업스테이지는 'Document Parse'로 문서 파싱 시장의 강자로 떠올랐다. 업스테이지 공식 발표에 따르면 100페이지 문서를 1분 내 처리하는 압도적 속도가 특징이다. 자체 LLM인 Solar와 문서 인식 기술을 결합해 "문서의 구조를 이해하고 문장 간 관계를 파악"하는 차별화된 성능을 보인다. 아마존이 선택한 한국 AI 기업으로, 이미 금융·통신 대기업들과 협업을 진행 중이다.

한국딥러닝은 'DEEP OCR+'로 VLM 기반 문서 분석의 선두주자로 평가받는다. 한국딥러닝 공식 자료에 따르면 자체 테스트에서 인식 정확도 99%를 기록해 Google OCR 대비 5% 높은 성능을 보였다. 특히 "별도 학습 없이 다양한 문서 처리가 가능"한 점이 강점이다. 금융권에서 46종 비정형 문서 자동 분할·분류에 성공하며 실전 성능을 증명했다.

엘리스그룹의 차별점: '풀스택 AI' 전략

이번에 출시된 엘리스그룹의 '헬피 도큐먼트 비전'은 독특한 포지셔닝을 취한다. 경쟁사들이 소프트웨어 솔루션에 집중한다면, 엘리스는 인프라부터 모델 개발, 서비스까지 통합한 'AI 풀스택' 전략을 내세운다.

핵심은 자체 VLM인 'Helpy Table Vision'이다. 글로벌 벤치마크 Nanonets에서 업계 1위를 기록한 이 모델은 테이블 데이터 처리에 특화됐다. "수백 행의 엑셀 문서 분석, 차트 데이터 복원, 복잡한 수식 기호화"까지 가능하다. 성능도 눈에 띈다. 기존 상용 솔루션이 문서 분석에 평균 33.6초 걸린 반면, 헬피 도큐먼트 비전은 9.8초로 3.4배 빠르다.

엘리스그룹 김수인 CRO는 "엘리스클라우드라는 자체 GPU 인프라를 기반으로 빠른 최적화와 안정적 성능을 구현했다"며 "도메인별 특수 문서에 맞춘 빠른 커스터마이징이 가능하다"고 강조했다. 실제로 고문서나 근현대사 문서처럼 일반 모델이 인식하기 어려운 영역도 "수백 건 수준의 데이터 학습만으로 정확히 분석"할 수 있다는 설명이다.

더 주목할 점은 장기 비전이다. 엘리스는 VLM을 넘어 'Vision-Language-Action(VLA)' 모델로 진화시킬 계획이다. VLA는 "AI가 매뉴얼을 보고 로봇을 제어"하는 '피지컬 AI' 기술로, 제조 현장의 자동화까지 염두에 둔 전략이다.

급성장하는 시장, 기술 격차는 줄어들고 경쟁은 치열해진다

시장 전망은 폭발적이다. Fortune Business Insights 보고서에 따르면 지능형 문서처리(IDP) 시장은 2026년 141억 6000만달러에서 2034년 910억 2000만달러로 성장, 연평균 26.2% 성장률을 보일 것으로 예상된다.

성장 동력은 명확하다. 기업 내 비정형 데이터가 폭증하면서 이를 AI가 활용 가능한 구조화된 데이터로 전환하는 수요가 급증하고 있다. 특히 RAG(검색 증강 생성)와 AI 에이전트 시스템이 확산되면서 고품질 문서 데이터의 중요성이 더욱 커졌다.

흥미로운 점은 기술 격차가 빠르게 좁혀지고 있다는 사실이다. 불과 2~3년 전만 해도 구글, 마이크로소프트 같은 빅테크가 압도적 우위를 점했지만, 이제 국내 기업들도 글로벌 벤치마크에서 최상위 성적을 기록한다. 오픈소스 VLM의 발전과 특화된 도메인 데이터의 축적이 기술 민주화를 이끌고 있다.

앞으로의 경쟁은 "누가 더 범용적인 문서를 인식하느냐"가 아니라 "특정 산업의 문서를 얼마나 정확하고 빠르게 처리하느냐"로 옮겨갈 것으로 보인다. 금융권의 계약서, 제조업의 설계 도면, 의료계의 진료 기록처럼 도메인 특화 데이터에 대한 최적화 능력이 승부처가 될 전망이다.

그런 의미에서 엘리스그룹의 헬피 도큐먼트 비전 출시는 단순한 제품 론칭이 아니다. OCR에서 VLM으로, 범용 솔루션에서 도메인 특화로, 소프트웨어에서 풀스택 인프라로 진화하는 AI 문서 분석 시장의 현주소를 보여주는 사례다. 이제 문서 분석 기술 전쟁은 본격적으로 시작됐다.

조상돈 기자

james@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

"문서 지옥이 싫었다"…비전공 공무원 혼자서 쓴 공직사회 AI 혁신

광진구청 류승인 주무관이 개발한 HWP 파서 'kordoc'과 법령 검색 MCP 서버 'korean-law-mcp'가 공직사회 AI 혁신 사례로 화제다. 비전공자 공무원의 바텀업 혁신, 두 도구 모두 오픈소스 무료 공개.

채용 공고부터 추천까지 한 번에…AI로 묶은 ‘통합 채용 허브’ 등장

잡코리아가 AI 기반 통합 채용 솔루션 ‘하이어링 센터’를 공개했다. 채용 공고 등록부터 지원자 관리, 커뮤니케이션, 운영 관리까지 전 과정을 하나의 환경에서 처리할 수 있도록 설계된 것이 핵심이다.

‘링크의 시대’에서 ‘답변의 시대’로…구글 ‘서치 라이브’가 바꾸는 검색의 질서

서치 라이브는 검색 결과를 읽는 경험보다, 검색과 ‘대화하는’ 경험에 가깝다. 사용자는 구글 앱 안에서 음성으로 질문을 이어가고, 필요하면 카메라로 사물을 비추며 실시간 도움을 받을 수 있다. 이는 검색이 단발성 쿼리에서 벗어나 문맥을 유지하는 세션형 인터페이스로 이동하고 있음을 보여준다.

‘AI’를 향한 아마존의 거대한 ‘20년 승부수’

[AI요약] 20년전 생소한 개념의 클라우드 컴퓨팅 서비스인 AWS를 출시한 후, 해당 서비스를 인터넷 기반 도구에 의존하는 거의 모든 기업에게 필수불가결한...