
공공 행정 서비스에 생성형 AI를 적용하려는 시도가 확대되는 가운데, AI 응답의 정확도와 신뢰성을 검증하는 기술이 핵심 과제로 떠오르고 있다.
AI 클라우드 서비스 전문기업 클라이온은 서울특별시의 ‘생성형 AI 기반 챗봇 2.0 구축 사업’을 완료하고, 검색증강생성(RAG) 기반 품질 평가 체계를 적용해 공공 AI 서비스의 응답 정확도를 높였다고 20일 밝혔다.
이번 사업은 서울시가 추진하는 ‘서울 AI 비전’의 핵심 전략 중 하나인 행정서비스 AI 전환 과제와 맞물려 진행됐다. 클라이온은 주관사로 참여해 지난해 9월부터 약 6개월 동안 GPU 인프라 구축, 서울시 데이터 기반 모델 튜닝, RAG 기반 AI 서비스 구축까지 전 과정을 수행했다.
구축 대상은 보안이 강화된 폐쇄망 기반 서울시 내부 행정 챗봇과 대시민 서비스 ‘서울톡’과 연계되는 챗봇이다. 공무원 업무 지원과 시민 응대 영역에서 생성형 AI를 활용하려면 단순한 답변 생성 능력보다 정확한 근거 검색, 응답 품질 검증, 환각 현상 제어가 중요하다. 클라이온은 이 지점을 개선하기 위해 자체 RAG 성능평가 솔루션 ‘REX(RAG Evaluation eXpert)’를 전면 도입했다.
REX는 생성형 AI 서비스에서 RAG 시스템의 성능을 측정하고 분석하며 개선 방향을 제시하는 품질 관리 솔루션이다. 이번 사업에서는 약 2만 건의 데이터셋을 기반으로 평가용 골든셋(QA셋)을 추출하고, 거대언어모델(LLM) Judge 평가와 휴먼 평가를 병행하는 다단계 검증 절차를 적용했다. 이를 통해 서울시 챗봇 2.0은 정확도 90점 이상의 응답 수준을 달성했다.
클라이온은 REX를 통해 답변의 충실성, 관련성 등 12개 국제 표준 지표를 활용해 검색 품질과 생성 품질을 정량적으로 측정할 수 있다고 설명했다. 공공, 금융, 의료 등 높은 신뢰성이 요구되는 영역을 고려해 유해성 탐지와 편향성 탐지 등 윤리적 AI 평가 기능도 기본 지원한다.
특히 REX는 일회성 성능 테스트가 아니라 운영 중인 AI 서비스를 지속적으로 점검하는 구조로 설계됐다. 스케줄러 기반 평가를 통해 결과를 축적하고, 문제 원인을 검색 영역과 생성 영역으로 나눠 분석한다. 이를 통해 운영자는 AI 응답 품질 저하의 원인이 검색 단계에 있는지, 생성 단계에 있는지 파악하고 개선 방향을 구체화할 수 있다.
솔루션에는 통합 운영 대시보드도 포함됐다. RAG·LLM 시스템 상태, 최근 평가 결과, 성능 추이, 진행 중인 평가, 비용 사용률 등을 한 화면에서 확인할 수 있도록 구성됐다. 평가용 QA 데이터셋과 골든셋을 자동 생성하는 기능도 제공한다. 외부 벡터 데이터베이스의 청크를 분석해 도메인 톤 템플릿, 핵심역량 비중, 부적절한 질문 검증 규칙 등을 사전에 설정하고 고품질 평가 데이터셋을 일괄 구축할 수 있도록 지원하는 방식이다.
평가 절차 역시 운영 시스템, 신규 구성 시험, 외부 시스템 등 다양한 시나리오에 맞춰 진행할 수 있다. 평가 대상 선택부터 데이터셋, 평가 방식, 항목, 분석 깊이, 일정 설정까지 단계별로 안내하는 흐름을 제공해 사용자의 평가 수준에 따라 프리셋을 활용할 수 있도록 했다.
박윤지 클라이온 대표는 “서울시 AI 행정 혁신 사업의 주관사로서 시민과 공무원 모두가 신뢰할 수 있는 고성능 AI 서비스를 구현하게 되어 뜻깊다”며 “REX와 같은 전문 솔루션을 통한 객관적 성능 검증이 공공 AI 서비스의 성공을 결정짓는 핵심 요소임을 입증하는 중요한 선례가 될 것으로 기대한다”고 말했다.