클라이온, 서울시 생성형 AI 챗봇 2.0 구축 완료…RAG 평가로 공공 AI 신뢰도 높였다

서울시 내부 행정 챗봇·대시민 ‘서울톡’ 연계 챗봇 고도화
2만 건 데이터 기반 골든셋 구축…LLM 평가와 휴먼 평가 병행
REX 솔루션으로 RAG 검색·생성 품질 상시 점검 체계 마련
REX 솔루션 통합 대시보드. RAG·LLM 시스템 구성, 평가 점수, 성능 추이, 비용 사용 현황을 한 화면에 모아 보여주는 운영 관리 화면이다. 서비스 상태와 최근 평가 결과를 빠르게 확인할 수 있도록 설계됐다.

공공 행정 서비스에 생성형 AI를 적용하려는 시도가 확대되는 가운데, AI 응답의 정확도와 신뢰성을 검증하는 기술이 핵심 과제로 떠오르고 있다.

AI 클라우드 서비스 전문기업 클라이온은 서울특별시의 ‘생성형 AI 기반 챗봇 2.0 구축 사업’을 완료하고, 검색증강생성(RAG) 기반 품질 평가 체계를 적용해 공공 AI 서비스의 응답 정확도를 높였다고 20일 밝혔다.

이번 사업은 서울시가 추진하는 ‘서울 AI 비전’의 핵심 전략 중 하나인 행정서비스 AI 전환 과제와 맞물려 진행됐다. 클라이온은 주관사로 참여해 지난해 9월부터 약 6개월 동안 GPU 인프라 구축, 서울시 데이터 기반 모델 튜닝, RAG 기반 AI 서비스 구축까지 전 과정을 수행했다.

구축 대상은 보안이 강화된 폐쇄망 기반 서울시 내부 행정 챗봇과 대시민 서비스 ‘서울톡’과 연계되는 챗봇이다. 공무원 업무 지원과 시민 응대 영역에서 생성형 AI를 활용하려면 단순한 답변 생성 능력보다 정확한 근거 검색, 응답 품질 검증, 환각 현상 제어가 중요하다. 클라이온은 이 지점을 개선하기 위해 자체 RAG 성능평가 솔루션 ‘REX(RAG Evaluation eXpert)’를 전면 도입했다.

REX는 생성형 AI 서비스에서 RAG 시스템의 성능을 측정하고 분석하며 개선 방향을 제시하는 품질 관리 솔루션이다. 이번 사업에서는 약 2만 건의 데이터셋을 기반으로 평가용 골든셋(QA셋)을 추출하고, 거대언어모델(LLM) Judge 평가와 휴먼 평가를 병행하는 다단계 검증 절차를 적용했다. 이를 통해 서울시 챗봇 2.0은 정확도 90점 이상의 응답 수준을 달성했다.

클라이온은 REX를 통해 답변의 충실성, 관련성 등 12개 국제 표준 지표를 활용해 검색 품질과 생성 품질을 정량적으로 측정할 수 있다고 설명했다. 공공, 금융, 의료 등 높은 신뢰성이 요구되는 영역을 고려해 유해성 탐지와 편향성 탐지 등 윤리적 AI 평가 기능도 기본 지원한다.

특히 REX는 일회성 성능 테스트가 아니라 운영 중인 AI 서비스를 지속적으로 점검하는 구조로 설계됐다. 스케줄러 기반 평가를 통해 결과를 축적하고, 문제 원인을 검색 영역과 생성 영역으로 나눠 분석한다. 이를 통해 운영자는 AI 응답 품질 저하의 원인이 검색 단계에 있는지, 생성 단계에 있는지 파악하고 개선 방향을 구체화할 수 있다.

솔루션에는 통합 운영 대시보드도 포함됐다. RAG·LLM 시스템 상태, 최근 평가 결과, 성능 추이, 진행 중인 평가, 비용 사용률 등을 한 화면에서 확인할 수 있도록 구성됐다. 평가용 QA 데이터셋과 골든셋을 자동 생성하는 기능도 제공한다. 외부 벡터 데이터베이스의 청크를 분석해 도메인 톤 템플릿, 핵심역량 비중, 부적절한 질문 검증 규칙 등을 사전에 설정하고 고품질 평가 데이터셋을 일괄 구축할 수 있도록 지원하는 방식이다.

평가 절차 역시 운영 시스템, 신규 구성 시험, 외부 시스템 등 다양한 시나리오에 맞춰 진행할 수 있다. 평가 대상 선택부터 데이터셋, 평가 방식, 항목, 분석 깊이, 일정 설정까지 단계별로 안내하는 흐름을 제공해 사용자의 평가 수준에 따라 프리셋을 활용할 수 있도록 했다.

박윤지 클라이온 대표는 “서울시 AI 행정 혁신 사업의 주관사로서 시민과 공무원 모두가 신뢰할 수 있는 고성능 AI 서비스를 구현하게 되어 뜻깊다”며 “REX와 같은 전문 솔루션을 통한 객관적 성능 검증이 공공 AI 서비스의 성공을 결정짓는 핵심 요소임을 입증하는 중요한 선례가 될 것으로 기대한다”고 말했다.

조상돈 기자

james@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

"명상, 이렇게 하는 거였나"…AI·XR 결합 1인 명상부스 '무아홈' 체험기

AI가 감정을 읽고 맞춤 명상을 추천하는 1인 명상부스 '무아홈'을 직접 체험했다. 카이스트 공동 개발 감정추론 AI, 비접촉 생체 측정, XR 명상까지. 스트레스 올랐지만, 가능성은 충분했다.

솔트룩스 ‘구버’, AI 에이전트 플랫폼으로 전환…“누구나 에이전트 만들고 공유”

풀스택 인공지능(AI) 전문기업 솔트룩스는 20일 자사 AI 서비스 ‘구버(Goover)’가 검색·생성 중심 서비스에서 사용자 참여형 AI 에이전트 플랫폼으로 전환된다고 밝혔다.

디노티시아, AI 에이전트용 업무 지식 인프라 ‘AKB’ 오픈소스 공개

장기기억 인공지능(AI) 및 반도체 기반 AI 인프라 기술을 개발하는 디노티시아는 20일 AI 에이전트 시대에 대응하기 위한 지식 플랫폼 ‘AKB(Agent Knowledge Base)’를 오픈소스로 공개했다.

[위클리 AI] 오픈AI 자산관리·MS 보안 에이전트...AI 업계, 이달 둘째 주 신기능 쏟아내

오픈AI 챗GPT 자산관리·합작법인 출범, MS MDASH AI 보안 에이전트, xAI 그록 빌드 코딩 에이전트 베타, 앤트로픽 클로드 오퍼스 4.7 패스트 모드—2026년 5월 둘째 주 글로벌 AI 업계 주요 동향을 한 기사에 정리했다.