클라이온, 서울시 생성형 AI 챗봇 2.0 구축 완료…RAG 평가로 공공 AI 신뢰도 높였다

서울시 내부 행정 챗봇·대시민 ‘서울톡’ 연계 챗봇 고도화
2만 건 데이터 기반 골든셋 구축…LLM 평가와 휴먼 평가 병행
REX 솔루션으로 RAG 검색·생성 품질 상시 점검 체계 마련
REX 솔루션 통합 대시보드. RAG·LLM 시스템 구성, 평가 점수, 성능 추이, 비용 사용 현황을 한 화면에 모아 보여주는 운영 관리 화면이다. 서비스 상태와 최근 평가 결과를 빠르게 확인할 수 있도록 설계됐다.

공공 행정 서비스에 생성형 AI를 적용하려는 시도가 확대되는 가운데, AI 응답의 정확도와 신뢰성을 검증하는 기술이 핵심 과제로 떠오르고 있다.

AI 클라우드 서비스 전문기업 클라이온은 서울특별시의 ‘생성형 AI 기반 챗봇 2.0 구축 사업’을 완료하고, 검색증강생성(RAG) 기반 품질 평가 체계를 적용해 공공 AI 서비스의 응답 정확도를 높였다고 20일 밝혔다.

이번 사업은 서울시가 추진하는 ‘서울 AI 비전’의 핵심 전략 중 하나인 행정서비스 AI 전환 과제와 맞물려 진행됐다. 클라이온은 주관사로 참여해 지난해 9월부터 약 6개월 동안 GPU 인프라 구축, 서울시 데이터 기반 모델 튜닝, RAG 기반 AI 서비스 구축까지 전 과정을 수행했다.

구축 대상은 보안이 강화된 폐쇄망 기반 서울시 내부 행정 챗봇과 대시민 서비스 ‘서울톡’과 연계되는 챗봇이다. 공무원 업무 지원과 시민 응대 영역에서 생성형 AI를 활용하려면 단순한 답변 생성 능력보다 정확한 근거 검색, 응답 품질 검증, 환각 현상 제어가 중요하다. 클라이온은 이 지점을 개선하기 위해 자체 RAG 성능평가 솔루션 ‘REX(RAG Evaluation eXpert)’를 전면 도입했다.

REX는 생성형 AI 서비스에서 RAG 시스템의 성능을 측정하고 분석하며 개선 방향을 제시하는 품질 관리 솔루션이다. 이번 사업에서는 약 2만 건의 데이터셋을 기반으로 평가용 골든셋(QA셋)을 추출하고, 거대언어모델(LLM) Judge 평가와 휴먼 평가를 병행하는 다단계 검증 절차를 적용했다. 이를 통해 서울시 챗봇 2.0은 정확도 90점 이상의 응답 수준을 달성했다.

클라이온은 REX를 통해 답변의 충실성, 관련성 등 12개 국제 표준 지표를 활용해 검색 품질과 생성 품질을 정량적으로 측정할 수 있다고 설명했다. 공공, 금융, 의료 등 높은 신뢰성이 요구되는 영역을 고려해 유해성 탐지와 편향성 탐지 등 윤리적 AI 평가 기능도 기본 지원한다.

특히 REX는 일회성 성능 테스트가 아니라 운영 중인 AI 서비스를 지속적으로 점검하는 구조로 설계됐다. 스케줄러 기반 평가를 통해 결과를 축적하고, 문제 원인을 검색 영역과 생성 영역으로 나눠 분석한다. 이를 통해 운영자는 AI 응답 품질 저하의 원인이 검색 단계에 있는지, 생성 단계에 있는지 파악하고 개선 방향을 구체화할 수 있다.

솔루션에는 통합 운영 대시보드도 포함됐다. RAG·LLM 시스템 상태, 최근 평가 결과, 성능 추이, 진행 중인 평가, 비용 사용률 등을 한 화면에서 확인할 수 있도록 구성됐다. 평가용 QA 데이터셋과 골든셋을 자동 생성하는 기능도 제공한다. 외부 벡터 데이터베이스의 청크를 분석해 도메인 톤 템플릿, 핵심역량 비중, 부적절한 질문 검증 규칙 등을 사전에 설정하고 고품질 평가 데이터셋을 일괄 구축할 수 있도록 지원하는 방식이다.

평가 절차 역시 운영 시스템, 신규 구성 시험, 외부 시스템 등 다양한 시나리오에 맞춰 진행할 수 있다. 평가 대상 선택부터 데이터셋, 평가 방식, 항목, 분석 깊이, 일정 설정까지 단계별로 안내하는 흐름을 제공해 사용자의 평가 수준에 따라 프리셋을 활용할 수 있도록 했다.

박윤지 클라이온 대표는 “서울시 AI 행정 혁신 사업의 주관사로서 시민과 공무원 모두가 신뢰할 수 있는 고성능 AI 서비스를 구현하게 되어 뜻깊다”며 “REX와 같은 전문 솔루션을 통한 객관적 성능 검증이 공공 AI 서비스의 성공을 결정짓는 핵심 요소임을 입증하는 중요한 선례가 될 것으로 기대한다”고 말했다.

조상돈 기자

james@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

[인터뷰] 조창현 원셀프월드 대표 “웹3 기반 초개인화 데이터를 확보하는 디지털 지갑을 만들었습니다”

테크42와 만난 조창현 원셀프월드 대표는 “‘온체인 데이터 플랫폼’이자 대중적이고 쉬운 웹3 서비스를 만들고 있다”고 설명했다. 결제가 바뀌는 시대, 디지털 지갑은 단순한 결제 수단에 머물까, 아니면 개인이 데이터를 들고 이동하는 새로운 인터페이스가 될까. 원셀프월드가 제시하는 초개인화 데이터 기반 디지털 지갑에 대해 좀 더 자세히 알아봤다. (사진=테크42)

[위클리 AI] 메타 클라우드 진출, 클로드 소네트 5·나노바나나까지, 7월 첫 주 총정리

7월 첫 주 AI 업계 소식을 정리했다. 앤트로픽 페이블5 전 세계 재개와 미토스5 제한 지속, 클로드 소네트5, 오픈AI GPT-5.6, 구글 나노바나나, 메타 클라우드 진출, 퀄컴 모듈러 인수까지 위클리 AI로 확인하세요.

맥까지 넓어진 침해사고 대응…마에스트로 포렌식, ‘마에스트로위즈덤’ 세미나 개최

마에스트로 포렌식은 지난 1일 서울 독산동 인섹시큐리티 서울 독산 교육센터에서 ‘마에스트로 위즈덤(MAESTRO WiSDOM) 맥 포렌식 세미나’를 열고, macOS 환경의 증거 수집과 침해사고 대응 절차를 공유했다고 2일 밝혔다.

세일즈포스, AI 고객서비스 ‘성과 과금’ 실험 본격화…에이전트포스 헬프 에이전트 공개

세일즈포스는 고객서비스용 AI 에이전트 구축과 운영을 지원하는 ‘에이전트포스 헬프 에이전트(Agentforce Help Agent)’를 공개했다고 2일 밝혔다.