
AI 기술이 단순한 호기심의 대상을 넘어 산업 각 현장에 적용되며 AI 최적화 경쟁이 본격화되고 있다. 이때 AI 모델 자체 만큼이나 중요한 것이 학습데이터의 품질이다.
유네스코는 AI 윤리 권고에서 데이터 거버넌스가 데이터의 대표성과 품질을 보장해야 한다는 정책적 방향을 제시했고 OECD 역시 AI 시대 데이터 거버넌스·프라이버시 논의에서 데이터 품질 같은 원칙을 중요한 축으로 다룬다.
기술 경쟁 측면에서도 데이터의 비중은 커지고 있다. 스탠퍼드 HAI의 ‘AI Index 2025’는 모델 규모 확대 흐름 속에서 데이터셋 규모가 빠르게 증가하고 있음을 짚었다.
이런 맥락에서 AI 학습데이터 스타트업 판티마(Pantima)는 음성 및 이미지 데이터에서 다국어 코퍼스(Corpus, 여러 언어로 된 대규모 텍스트 데이터의 모음)에 이르기까지, AI 기업 및 연구자, 개발자가 필요로 하는 최적의 데이터를 공급하며 주목 받고 있다.
전신우 판티마 대표는 “AI 프로젝트들을 지켜보면서 알고리즘보다 데이터의 품질과 구조가 AI 성능에 훨씬 더 큰 영향을 미친다는 걸 발견했다”고 창업 동기를 말했다.
이에 따라 판티마는 OCR 엔진, 음성-텍스트 시스템, 언어 모델 등을 구동하는 맞춤형 데이터셋 공급을 위한 데이터 파이프라인을 구축했다. 흥미로운 점은 이후 빠르게 AI 기술을 활용하는 국내·외 대기업들을 고객사로 확보하고 있다는 사실이다. 이에 테크42는 좀 더 자세한 이야기를 전 대표에게 들어봤다.
전신우 대표가 ‘데이터 품질’에 꽂힌 이유

판티마는 먼 미래에 대륙이 하나로 합쳐진다는 '판게아 울티마(Pangaea Ultima)'에서 따온 사명이다. 언젠가 AI가 모든 언어와 문화를 아우는 시대, 그 연결의 가교가 되고자 한다는 전 대표의 바람이 깃들어 있다.
그러한 가치로 지난 2023년 설립된 판티마는 “AI는 학습하는 데이터만큼이나 강력하다”는 믿음 아래, 윤리적이고 정확하며 실제 다양성을 반영하는 데이터셋을 수집·검증·제공하는 것을 사명으로 삼았다.
한편으로 전 대표는 판티마를 “똑똑한 학생이 빠르게 학습할 수 있도록 고품질의 맞춤형 학습 자료(데이터)를 제공하는 ‘선생님’ 역할”로 정의하기도 했다. 그런 전 대표가 데이터의 중요성을 처음 깨달은 것은 블록체인 업계에서 일하던 당시라고 한다.
“블록체인 관련 기기 해외 영업 분야에서 6년여 정도 일했어요. 그때 AI 프로젝트들을 지켜보며 알고리즘보다 데이터의 품질과 구조가 AI 성능에 훨씬 더 큰 영향을 미친다는 것을 알게 됐죠. 같은 알고리즘이라도 어떤 데이터를 학습시켰는지에 따라 결과가 완전히 달라지더군요. 가령 얀덱스(Yandex)와 같은 해외 검색엔진 번역기에 ‘육회’를 입력하면 ‘'6 times'으로 나오지만 국내에서는 ‘소고기로 만든 회’라고 제대로 설명이 나오죠. 이런 차이가 데이터에서 나온다는 것을 알게 됐죠.”
다양한 경험을 통해 전 대표는 AI가 성능을 제대로 발휘하기 위해서는 언어 데이터만으로는 한계가 있고 ‘감정’이나 ‘문화적 맥락’이 적용된 데이터가 필요하다는 확신을 갖게 됐다고 한다. 그런데 문득 국내에 잘 알려지지 않은 얀덱스(러시아의 검색엔진이자 인터넷 기업)를 언급하는 전 대표의 지난 이력이 궁금해졌다.

“부모님께서 키르기스스탄에서 일을 하셔서 그곳에서 태어났어요. 이후에는 영국, 아랍에미레이트 아부다비 등 해외에서 생활했고, 학부는 한국으로 와 명지대학교 경영학과를 졸업했습니다. 이후 영국 UWS(University of the West of Scotland) MBA를 취득하고 일을 하다가 독학으로 AI와 데이터를 공부하기 시작했죠. 특히 온라인 플랫폼을 활용해 구글 번역기나 ChatGPT가 어떤 데이터로 학습하는지, 데이터를 어떻게 수집하고 AI에 넣는지 등을 연구했어요. 그 과정에서 언어 데이터만으로는 한계가 있고, 감정이나 문화적 맥락 같은 데이터가 필요하다는 확신을 갖게 됐습니다.”
그런 그가 한국에서의 창업을 택한 이유가 뭘까. 아이러니하게도 글로벌 시장을 목표로 하기 때문이라는 답이 돌아왔다.
전 대표는 “글로벌 고객사들과 일할 때 ‘한국’이라고 하면 반응이 아주 좋다”며 “K-컬처로 형성된 인지도와 ‘24시간 대응 가능’ 같은 이미지가 비즈니스 환경에서 강점으로 작용하는 점에 주목했다”고 말했다.
전 대표는 창업을 하며 초기 자금 투자 유치 대신 자신의 퇴직금을 쏟아 붓는 것을 택했다. 그만큼 확신이 있었기 때문이라고 했다. 어려운 상황 속에서도 진정성 있게 팀을 구축했고 그렇게 모은 개발자와 AI 전문가들과 함께 데이터 수집 플랫폼과 가공 기술을 개발했다. 흥미로운 점은 전 대표가 확신한 대로 판티마가 제공하는 데이터에 글로벌 기업들이 즉각적으로 관심을 보였다는 사실이다.
최근 판티마는 글로벌 기술기업과 AI 학습데이터 구매·공급 계약을 체결하며 고객사를 늘려가고 있다. 전 대표에 따르면 국내외 대기업 고객사 수는 현재 11곳에 달한다.
멀티모달 데이터 수집·가공, 맞춤형 데이터 제공한다

올해 7월 판티마는 미국 비즈니스 플랫폼 The Manifest에서 발표한 ‘2025년 7월 기준 TOP 100 Artificial Intelligence Companies in the United States’ 에 포함됐다. 이는 미국 기업에 기술 서비스를 제공하는 AI 기업을 대상으로 기술력, 프로젝트 성과, 고객 리뷰 등을 취합해 집계하는 리스트다.
그중 판티마는 텍스트, 음성, 이미지 등 다양한 포맷의 AI 학습데이터를 구축해 공급하는 기업으로, 감정과 문화적 맥락을 포함한 고품질 맞춤형 데이터를 제공하는 기업으로 꼽혔다. 판티마가 수집하는 고품질 데이터는 전 세계 언어를 대상으로 하고 있다는 것이 특징이다.
판티마의 핵심은 학습데이터 수집·가공을 수행하는 플랫폼이다. 운영 방식은 비교적 명확하다. 유저가 가입 단계에서 언어·위치 등 기본 정보를 제공하면, 고객사 요청 조건에 맞는 유저를 선별해 데이터를 수집한다. 전 대표에 따르면 제출 데이터에 대한 보상은 현금 리워드로 제공되며, 음성은 시간당, 이미지는 장당, 텍스트는 문장당 지급된다.
핵심은 ‘아무나’ 참여하는 구조가 아니라는 점이다. 전 대표는 “가입은 누구나 할 수 있지만, 저희가 유저를 검증한 후 선별된 사람에게만 작업 액세스를 준다”며 “품질 관리를 철저히 해서 데이터 어뷰징(Abusing)을 방지하다”고 강조했다.


“마케팅을 거의 안 하는데도 AI가 워낙 핫한 분야라서 그런지 자연 유입이 계속 늘고 있습니다. 현재 전 세계적으로 약 8만명의 유저가 있고, 그중 한국인은 10% 정도이고 나머지 90%는 해외 유저입니다. 주로 미국, 프랑스, 독일 유저가 많습니다. 단순한 스크립트 음성이 아니라 감정(상/중/하 강도 포함)과 배경 환경이 섞인 음성, 손 글씨(OCR), 코퍼스(텍스트) 등 맞춤형 데이터를 수집하죠.”
그러면서 전 대표는 이러한 맞춤형 데이터 적용 사례로 게임을 언급했다. 가령 모 게임사에서 게임 중 욕설이나 비하 발언을 차단하는 AI를 개발한다고 했을 때 기존 데이터로는 완벽한 차단이 불가능한 상황이었다고. 이때 판티마의 데이터셋을 적용하면 실제 게임 환경에서 발생하는 게임 소음, 감정 섞인 목소리 등 속에서도 정확한 차단이 가능하다는 것이다.
“기존 업체들은 라이선스가 있는 데이터를 모아 재판매하거나 크라우드소싱 방식으로 수집합니다. 하지만 저희는 고객사 전용 맞춤형 데이터를 직접 수집하기 때문에 저작권 이슈가 전혀 없고, 품질 검증도 철저합니다. 가령 게임의 경우는 실제 게임 플레이 환경을 재현한 데이터를 수집해 제공하는 식이죠.”
글로벌 500대 기업 11곳과 계약…“복잡할수록 먼저 떠올리는 파트너” 되고자
판티마의 성장 지표는 ‘글로벌’에서 두드러진다. 현재까지 판티마의 데이터를 정기적으로 구매하는 고객사는 11개사다. 전 대표의 설명에 따르면 이들 모두 글로벌 500대 기업에 꼽히는, 이름만 들어도 알만한 기업들이다. 전 대표는 구체적인 수치를 언급하며 말을 이어갔다.
“판티마는 전 세계 60여 개국 언어 기반 코퍼스, OCR(광학문자인식) 특화 이미지 데이터, 다양한 조건의 음성·대화 데이터 등 대규모·고품질 AI 학습 데이터의 수집·가공·검수까지 제공하는 E2E(End-to-End) 시스템을 갖추고 있어요. 이제까지 데이터 공급량을 보면 이미지 데이터가 8개 국어 언어당 10만장, 영어 음성 데이터는 약 6000시간에 달합니다.”
국내·해외 고객의 요구 차이는 언어 스케일에서 갈린다. 전 대표에 따르면 국내 기업은 주로 한국어 데이터만 요청하는 반면, 해외 대기업은 한 번에 수십 개 언어를 동시에 요구한다. 전 대표는 “특히 아랍어의 경우 국가별 방언이 달라 세분화해서 수집해야 한다”고 그 이유를 설명했다.
“아랍어 같은 경우에는 언뜻 하나의 언어라고 생각하잖아요. 하지만 굉장히 다양해요. 가령 사우디아라비아에서 쓰는 아랍어와 바레인에서 쓰는 아랍어는 완전히 다른 언어예요. 그래서 아랍권 사람 중에는 10개국어를 할 줄 안다고 하는 사람이 있는데, 전부 각각의 국가에서 쓰는 아랍어를 할 줄 안다는 의미인 경우가 있어요. 그 차이가 한국 표준어와 제주 사투리 정도도 아니라 완전히 달라요. 그래서 아랍어 수집을 할 때는 조금 어려움이 있죠(웃음).”
판티마가 바라보는 다음 시장은 피지컬 AI다. 전 대표는 “말 뿐만 아니라 동작, 표정 등을 모두 인식해야 하는 시장이 본격화되면 판티마의 데이터가 더욱 중요해질 것”이라며 “당장의 매출 보다는 미래에 필수적인 복잡한 데이터 수집에 더욱 집중할 계획”이라고 말했다.
그러면서 전 대표는 중장기 관점에서 판티마의 기업가치를 결정짓게 될 핵심 요소로 두 가지를 꼽았다. 첫째는 데이터에 대한 해석 능력이다. 같은 데이터를 수집하더라도, 어떤 기준으로 설계하고 검증하느냐에 따라 그 가치는 달라지기 때문이다. 전 대표는 “판티마는 단순 수집이 아니라, 모델 구조와 활용 목적을 기준으로 ‘이 데이터가 왜 필요한가’를 먼저 정의해 왔다”고 강조했다.

둘째는 품질을 유지하는 방식이다. 단기 프로젝트에서는 인력으로 보완할 수 있지만, 프로젝트가 반복될수록 기준과 프로세스 없이는 품질을 유지할 수 없기 때문이다. 판티마는 프로젝트를 거치며 데이터 품질 관리 기준을 계속 고도화해 왔고, 이 축적이 시간이 지날수록 진입장벽으로 작용한다는 것이 전 대표의 설명이다.
“결국 판티마의 기업 가치는 ‘어떤 데이터를 만들었느냐’보다, 모델과 목적이 다른 조건 속에서 어떤 문제를 실제로 판단하고 풀어봤느냐에서 결정된다고 생각합니다. 이 과정에서 반복해 온 의사결정의 경험 자체가 판티마의 자산이 되는 거죠.”
그렇다면 새해를 맞이하는 판티마가 집중하는 2026년의 계획은 뭘까? 인터뷰 말미, 전 대표는 판티마를 ‘단순히 데이터를 공급하는 회사’를 넘어 “AI가 실제 환경에서 작동하기 위해 어떤 데이터가 필요한지를 가장 먼저 정의하고 제안하는 기업으로 자리매김하고자 한다”는 포부를 밝혔다.
“그동안 AI 학습 데이터 시장은 비교적 정형화된 텍스트나 이미지 중심으로 발전해 왔다면, 앞으로는 사람의 행동, 반응, 맥락이 함께 담긴 데이터가 점점 더 중요해질 것이라고 보고 있습니다. 판티마는 이 변화의 흐름 속에서, 텍스트, 음성, 이미지를 넘어 상황 기반, 상호작용 기반 데이터까지 아우르는 멀티모달 데이터 기업으로 확장하고자 합니다. 특히 2026년에 중요한 지점은 글로벌 시장이죠. 특정 국가나 언어에 국한되지 않고, 여러 산업군과 여러 지역의 고객이 판티마를 ‘문제가 복잡할수록 먼저 떠올리는 파트너’로 인식하는 단계에 도달하고 싶습니다. 규모의 확장보다는, 신뢰와 반복 거래가 자연스럽게 이어지는 구조를 만드는 것이 목표입니다.”
