김계관 그리드원 대표 “생성형 AI에 OCR, RPA로 눈과 손 달아, 사람처럼 직접 행동하는 AI 에이전트를 소개합니다”

LLM 기반 생성형 AI에  OCR, RPA 역량 더하니… 스스로 사람처럼 작업 수행하는 ‘AI 에이전트’ 됐다
API 없이 모든 앱 직접 읽고 실행…KTX 티켓 예매는 물론 스타벅스 커피 주문까지…양방향 소통 가능
상반기 각 도메인에 특화된 B2B 서비스 시작, 하반기에 일상생활 수행할 돕는 ‘B2C 개인 비서 서비스’ 글로벌 출시
이날 행사에 ‘Autumation 2.0(업무자동화 2.0)을 주제로 키노트에 나선 김계관 그리드원 대표는 “AI 에이전트와 연결되는 AI-OCR, PRA와 관련해 “1%의 오류를 인식하고 분류하는 특허 기술로 효율성을 극대화 했다”고 말했다. (사진=테크42)

생성형 AI 등장 이후 인공지능이 그려갈 미래에 대한 전망이 쏟아지고 있다. 긍정적인 측면만을 놓고 보자면, 가령 머지않아 영화 ‘아이언맨’에 등장하는 ‘자비스’와 같이 모든 것이 가능한 AI의 등장도 예상할 수 있다. 물론 아직까지 가능한 현실은 아니다. 다만 그 가능성을 높여가는 시도는 현재도 이어지고 있다.

지난 18일 ‘Automation 2.0’을 주제로 서울 양재동 엘타워에서 개최된 그리드원의 ‘TechDay 2024’에서 선보인 'AI 에이전트'는 그러한 시도 중 하나로 주목되고 있다.

이제까지 생성형 AI는 아직 실질적인 사람의 일을 만족스러운 수준으로 돕고 자율적으로 처리하는 영역까지는 도달하지 못하고 있다. 뛰어난 생성 능력으로 주목을 받았지만, 구체적인 실행 단계에서는 작업을 수행할 수단이 없어 ‘저는 직접 작업을 수행할 수 없어서 관련된 정보를 제공해 주겠다’는 답변을 할 뿐이었다.  

하지만 이날 그리드원이 선보인 AI 에이전트 서비스 ‘고두(GO;DO)’는 챗GPT로 대표되는 이제까지 생성형 AI의 한계를 넘어서며 참석자들에게 놀라움을 안겼다.

자연어를 이해하는 LLM에 눈과 손을 달아 만든 AI 에이전트

김계관 그리드원 대표는 2005년 창업 이후 그리드원이 이어온 기술 고도화 과정을 소개했다. (사진=테크42)

그리드원은 여느 기업과 다른 접근 방식을 택했다. 무수히 쏟아지는 LLM 기반 생성 AI들을 활용해 실질적으로 사람들이 하는 일, 필요로 하는 업무 현장의 문제를 해결할 수 있는데 초점을 맞춘 것이다. 여기에는 20년 간 업무 자동화 솔루션 개발에 집중해 온 그리드원의 역량이 작용했다.

그리드원은 그간 비전, OCR(Optical Character Reader, 이미지 등에 포함되어 있는 문자나 글자를 추출하고 인식하는 기술)을 활용해 스마트폰 앱을 자동으로 손쉽게 테스트할 수 있는 기술로 시장을 리드했다. 테스팅 시장에서 자동화에 대한 니즈와 가능성을 확인한 그리드원은 이어 컴퓨터를 클릭하고 제어할 수 있는 RPA(로보틱스 프로세스 자동화) 기술을 선보이며 혁신을 이어갔다. 그리고 이 OCR과 RPA 기술은 생성형 AI의 눈과 손이 되어 AI 에이전트 서비스 ‘고두(GO;DO)’로 탄생했다.

고두는 앱과 플랫폼을 넘나들며 사람이 수행하던 고차원적인 업무를 사람과 같이 시각적 판단에 의해 처리할 수 있다.

그리드원이 선보인 ‘고두(GO;DO)’는 ‘GO Automation Platform’ 환경에서 AI 에이전트 역할을 한다. AI 에이전트로서 ‘고두’는 LLM을 기업 데이터 기반으로 학습해 내부 데이터를 근거로 명확한 출처와 답변을 제시한다. 여기까지는 일종의 정보의 환각을 없앤 생성형 AI라 할 수 있다. 고두에게 정보를 찾고 답변을 하는 것은 시작에 불과하다.

이후 채팅형 인터페이스를 통해 이용자와 소통하는 고두는 메일을 보내거나, 앱을 활용해 결과물을 만드는 일을 수행한다. 이때 연계되는 것이 RPA, AI-OCR과 같은 그리드원의 자동화 솔루션이다. AI 에이전트가 앱 간의 경계를 넘나들며 사람과 같이 업무를 수행하는 것이다. 이때 각 기업 도메인 별 LLM이 선택적으로 적용될 경우 AI 에이전트 고두는 다양한 버전으로 작업을 수행한다. 이를테면 매뉴얼 안내 에이전트, 콜센터 상담 점검 에이전트, 금융상품 안내 에이전트, 이미지 문서 자산화 에이전트, 티켓 예매 및 방송 에이전트 등으로 특화된 활용이 가능다는 의미다.

더구나 고두는 앱과 플랫폼을 넘나들며 사람이 수행하던 고차원적인 업무를 사람과 같이 시각적 판단에 의해 처리할 수 있다. 이를테면 KTX 예약 앱을 통해 열차를 예약 하거나 스타벅스 앱을 통해 커피를 주문하는 식이다. API를 지원하지 않는 앱과 플랫폼도 AI-OCR를 통해 분석하고 직접 구동시켜 원하는 목적을 수행한다는 것이다.  

그리드원의 목표는 AI가 아닌 ‘자동화’

고두의 구동 프로세스.

이날 행사에 ‘Autumation 2.0(업무자동화 2.0)을 주제로 키노트에 나선 김계관 그리드원 대표는 “AI 에이전트와 연결되는 AI-OCR, PRA와 관련해 “1%의 오류를 인식하고 분류하는 특허 기술로 효율성을 극대화 했다”고 강조하며 말을 이어갔다.

“업무에 있어서 기존 RPA는 하고 싶었던 비정규 업무를 자동으로 처리할 수 없었습니다. 사람은 아주 손쉽게 그림을 이해하고 글씨를 읽어 판단하고 업무에 적용할 수 있지만 과거의 RPA는 불가능했죠. 그래서 저희는 국내 최초로 AI-OCR을 만들어 자동화에 적용했습니다. 그런데 문제가 있었죠. AI-OCR 기술이 뛰어나다고 해도 실제 금융권과 같은 분야에서 이를 적용하기 위해서는 1% 오류도 감당할 수 없기 때문입니다. 그래서 저희는 AI의 결과를 검증하는 특허 기술로 이를 보완했습니다. 여기에 LLM 기반 생성형 AI 기술은 저희들이 지금 추구하는 오토메이션의 결정적인 퍼즐이 됐습니다.”

이제까지 업무 자동화를 위한 소프트웨어 개발을 위해서는 많은 시간과 돈을 들여 코딩을 하고 UI/UX를 만들고 검증하는 과정이 소프트웨어 1.0이라면 ‘소프트웨어 2.0’은 AI 에이전트가 자동으로 코드를 만들고 앱을 개발해 테스트까지 가능한 단계다.

이어 김 대표는 “그리드원의 목표는 AI가 아닌 자동화”라며 “이미지나 문서 화면 등 비정형 데이터를 읽을 수 있는 AI-OCR, 이를 검증하고 직접 앱과 소프트웨어를 활용해 작업을 진행하는 RPA를 결합해 하나의 플랫폼으로 제공하고 사람의 자연어를 알아듣고 추론하는 LLM을 결합해 실제 액션을 할 수 있는 AI 에이전트로 완성하게 됐다”고 설명했다.

이어 김 대표는 ‘소프트웨어 2.0’을 언급했다. 이제까지 업무 자동화를 위한 소프트웨어 개발을 위해서는 많은 시간과 돈을 들여 코딩을 하고 UI/UX를 만들고 검증하는 과정이 소프트웨어 1.0이라면 ‘소프트웨어 2.0’은 AI 에이전트가 자동으로 코드를 만들고 앱을 개발해 테스트까지 가능한 단계다.

5년 이내에 도래할 AGI 시대, AI 에이전트의 능력 극대화 될 것

이날 ‘Autonomous AI Agent’mf 주제로 발표에 나선 장석수 그리드원 CTO는 ‘AGI(Artificial General Intelligence, 범용 인공지능)’을 통한 ‘AI 제너럴 에이전트’의 가능성을 언급하며 고두를 활용해 KTX 기차표를 예매하는 프로세스를 설명하기도 했다. (사진=테크42)

한편 이날 ‘Autonomous AI Agent’를 주제로 발표에 나선 장석수 그리드원 CTO는 ‘AGI(Artificial General Intelligence, 범용 인공지능)’을 통한 ‘AI 제너럴 에이전트’의 가능성을 언급하기도 했다. 아직 도래하지 않은 AGI 시대가 될 경우 하나의 에이전트가 여러가지 일을 수행할 수 있는 수준으로 능력을 높일 수 있다는 것이다. 이는 그리드 성장 로드맵에 포함돼 있다.

이날 생성형 AI 자율 에이전트 서비스가 구동하는 기술적 특성과 활용 사례를 소개한 장 CTO는 “AGI가 가능해질 때까지 에이전트가 하나의 태스크만 수행하도록 디자인하고 개발하는 것이 에이전트의 능력을 높이는 좋은 방법”이라며 “그리드원은 범용 에이전트를 지향하면서 특별 태스크에 최적화된 도메인 특화 에이전트 개발에 집중하고 있다”고 설명했다.

“저희 에이전트 팜은 분류 에이전트와 여러 스페셜 에이전트들로 구성돼 있습니다. 각각의 에이전트들은 그 목적에 맞는 워크플로우를 가지고 단독 또는 그룹 방식으로 동작하죠. 기본적으로 온프레미스 환경으로 구축되고 필요시 외부 API를 이용할 수 있는 구성입니다. 에이전트가 활용하는 도구는 특별 제작된 커스텀 툴과 구글 서치 같은 외부 API로 구성돼 있습니다. 예를 들어 KTX 기차표 예매를 요청하면 해당 에이전트가 적절한 툴을 활용해 태스크를 수행합니다.”

이어 장 CTO는 시연 영상을 통해 에이전트가 업무를 처리하는 과정을 선보였다. 그 프로세스는 대략 이렇다. 대화형 채팅 인터페이스를 통해 사용자가 에이전트에 요구사항을 이야기하면 에이전트는 이를 분류해 하위 스페셜 에이전트에 할당 하고 태스크를 수행하는 방식으로 처리된다. 이때 도큐먼트, 설치, 코드 생성과 같이 자주 이용하는 에이전트는 분류 과정 없이 사용할 수 있도록 배치해 편의성을 더했다. 앞서 언급한 매뉴얼 안내 에이전트, 콜센터 상담 점검 에이전트 등이 바로 이런 방식으로 구동된다.

한편 이날 행사는 ‘AI Serch & Chatbot Agent’를 주제로한 그리드원 A-PF 개발본부의 차승환 본부장의 발표를 비롯해 각 본부의 담당자들이 차례로 등장해 고두의 핵심 기술인 차세대 업무 자동화 솔루션 개요와 사례, SW 개발 및 테스트 AI 자동화, 공공분야 생성형 AI 실증 사례 등을 소개하는 순으로 진행됐다.

황정호 기자

jhh@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

윌로그, 과기정통부 ‘글로벌 ICT 미래 유니콘 육성 사업’ 선정

물류 상태 모니터링 솔루션 기업 윌로그는 과학기술정보통신부에서 주관하는 ‘글로벌 ICT 미래 유니콘 육성(ICT GROWTH)’ 사업에 선정됐다고 24일 밝혔다. 과학기술정통부에서 주관하는...

모두싸인, ‘CSAP SaaS 표준등급’ 획득… 공공시장 진출 본격화

전자계약 전문기업 모두싸인은 클라우드 보안인증 'CSAP SaaS 표준등급'을 성공적으로 획득했다고 24일 밝혔다. 모두싸인은 이메일, 카카오톡, 전용 링크를 통해 법적 효력...

카카오모빌리티, 스마트한 운전자 위한 ‘커넥티드카’ 서비스 첫 선

카카오모빌리티는 테슬라 오너를 대상으로 무선 네트워크를 통해 차량 제어 및 운전자 지원이 가능한 ‘커넥티드카’ 서비스를 선보인다고 24일 밝혔다. 카카오모빌리티의 첫...

‘AI와 생체공학’이 팔다리 잃은 인간을 이해하는 법

AI는 많은 사람을 혼란에 빠뜨리기도 하지만, 전례 없는 솔루션을 제공하기도 한다. 러시아와의 전쟁에서 팔다리를 잃은 우크라이나 군인들을 위한 생체공학 기술이 AI와 결합되면서 날개를 달았다. AI와 결합된 생체공학 보철물은 사용자가 쓰면 쓸수록 근육과 움직임을 이해하면서 점점 더 사용이 편리해지고 있다.