마이크로소프트, AI 한 명 시대 접고 ‘집단 검토’로 간다… 코파일럿 리서처에 GPT·클로드 동시 투입

  • 마이크로소프트 365 코파일럿 ‘리서처’, 초안 작성과 검증을 분리한 멀티모델 체계로 정확도·완성도 강화
  • 오픈AI와 앤트로픽 모델을 나란히 비교하는 ‘카운슬’도 도입… 신규 기능은 프런티어 프로그램에서 우선 제공
마이크로소프트가 자사 업무용 AI 서비스인 마이크로소프트 365 코파일럿의 심화 조사 도구 ‘리서처’에 복수의 대형언어모델(LLM)을 함께 활용하는 구조를 도입했다.

마이크로소프트가 자사 업무용 AI 서비스인 마이크로소프트 365 코파일럿의 심화 조사 도구 ‘리서처’에 복수의 대형언어모델(LLM)을 함께 활용하는 구조를 도입했다. 하나의 모델에 답변 생성을 맡기던 방식에서 벗어나, 서로 다른 AI가 초안 작성과 검토를 나눠 수행하도록 설계한 것이 핵심이다. 회사는 이를 통해 사실 정확성, 분석 범위, 보고서 구성력까지 끌어올리겠다는 구상이다.

이번에 추가된 기능의 중심에는 ‘크리틱(Critique)’이 있다. 마이크로소프트 설명에 따르면 이 기능은 한 모델이 조사 계획을 세우고 자료를 찾은 뒤 초안을 만들면, 다른 모델이 이를 다시 검토해 주장과 근거, 문장 구조, 인용의 적절성을 점검하는 방식으로 작동한다. 보도된 내용대로라면 오픈AI의 GPT 계열 모델이 초안을 만들고, 앤트로픽의 클로드가 이를 재검토하는 흐름이다. 마이크로소프트는 이런 분업형 구조가 단일 모델 방식보다 더 높은 수준의 심층 조사 결과를 제공한다고 밝혔다.

리서처는 애초부터 일반적인 질의응답형 코파일럿과는 결이 다른 도구로 설계됐다. 마이크로소프트는 2025년 3월 리서처를 처음 공개하면서, 이메일·회의·문서·채팅 같은 업무 데이터와 웹 정보를 함께 활용해 다단계 조사 업무를 수행하는 에이전트라고 소개했다. 신제품 시장 진입 전략 수립, 경쟁사 동향 분석, 분기 보고서 초안 작성처럼 자료 수집과 맥락 파악, 정리 작업이 한 번에 필요한 업무가 대표적 활용 사례로 제시됐다.

마이크로소프트는 성능 개선 근거도 함께 내놨다. 회사는 ‘DRACO(Deep Research Accuracy, Completeness, and Objectivity)’ 벤치마크를 기준으로 평가한 결과, 크리틱이 적용된 리서처가 기존 단일 모델 방식보다 더 높은 종합 점수를 기록했다고 밝혔다. 특히 분석의 폭과 깊이, 표현 품질, 사실 정확성 부문에서 개선 폭이 확인됐다고 설명했다. 또 퍼플렉시티의 딥 리서치 시스템과 비교한 수치도 제시하며 경쟁 서비스 대비 우위가 있다고 주장했다. 다만 이 비교 평가는 마이크로소프트가 자체 적용한 결과라는 점에서, 시장 전반의 절대적 우위로 받아들이기보다 공식 발표 수치로 보는 것이 적절하다.

함께 도입된 ‘카운슬(Council)’ 기능은 접근법이 다르다. 이 기능은 앤트로픽과 오픈AI 모델이 각각 독립적인 보고서를 생성한 뒤, 두 결과를 나란히 제시하고 어디에서 의견이 일치하는지, 어떤 대목에서 해석이나 강조점이 갈리는지를 별도 요약으로 정리해준다. 같은 질문에 대해 서로 다른 모델의 시각을 비교하려는 기업 사용자에게는 검토 시간을 줄이는 장치가 될 수 있다.

이번 변화는 마이크로소프트의 AI 전략이 ‘자체 모델 중심’이 아니라 ‘최적 모델 조합’ 쪽으로 더 분명하게 움직이고 있음을 보여준다. 로이터는 마이크로소프트가 코파일럿 고도화를 위해 여러 AI 공급사의 모델을 한 워크플로 안에서 동시에 활용하도록 기능을 확장하고 있다고 전했다. 회사는 이런 멀티모델 접근이 이용자의 작업 속도를 높이고, 허위 정보를 그럴듯하게 만들어내는 이른바 환각 현상을 줄이며, 결과물의 신뢰도를 끌어올리는 데 도움이 될 것으로 보고 있다.

시장 경쟁 구도도 이번 발표의 배경으로 읽힌다. 마이크로소프트는 구글 제미나이, 앤트로픽의 자율형 에이전트 서비스와 경쟁하는 상황에서 코파일럿의 활용성을 높여야 하는 과제를 안고 있다. 더버지는 이달 초 마이크로소프트가 앤트로픽과 협력해 장시간·다단계 작업을 수행하는 ‘코파일럿 코워크(Copilot Cowork)’ 기능을 코파일럿에 들여오고 있다고 보도한 바 있다. 이번 리서처 멀티모델 강화는 그런 흐름의 연장선으로 해석된다.

현재 크리틱과 카운슬 기능은 마이크로소프트 365 코파일럿의 프런티어 프로그램에서 우선 제공된다. 프런티어는 정식 대중화 이전 단계의 코파일럿 기능을 먼저 체험할 수 있는 조기 접근 프로그램이다. 마이크로소프트는 크리틱을 리서처의 기본 경험으로 배치하고, 모델 선택기에서 자동 모드를 고르면 해당 구조가 적용되도록 설계했다고 밝혔다.

이번 업데이트는 기업용 생성형 AI가 단순 답변 경쟁을 넘어, 서로 다른 모델이 상호 검증하는 체계로 진화하고 있음을 보여주는 사례로 평가된다. 한 모델이 모든 과정을 책임지는 방식보다, 생성과 검증을 분리한 구조가 업무 현장에서 더 설득력 있는 결과물을 만들 수 있다는 판단이 제품 설계에 직접 반영된 셈이다. 검색, 조사, 보고서 작성처럼 정확성과 근거 제시가 중요한 업무일수록 이런 멀티모델 전략은 앞으로 더 확대될 가능성이 커 보인다.

김광우 기자

kimnoba@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

채용 공고부터 추천까지 한 번에…AI로 묶은 ‘통합 채용 허브’ 등장

잡코리아가 AI 기반 통합 채용 솔루션 ‘하이어링 센터’를 공개했다. 채용 공고 등록부터 지원자 관리, 커뮤니케이션, 운영 관리까지 전 과정을 하나의 환경에서 처리할 수 있도록 설계된 것이 핵심이다.

정답 아닌 과정 본다…AI 활용 역량, 다면 분석으로 판별

‘AI 역량평가’는 응시자가 AI를 활용해 결과를 도출하는 과정 자체를 분석한다. 프롬프트를 설계하고, AI의 응답을 검증한 뒤 이를 보완해 최종 성과로 연결하는 일련의 단계가 평가 대상이다. 단순 정답 여부가 아니라 활용 과정의 완성도를 데이터 기반으로 측정한다는 점에서 기존 평가와 차별화된다.

QAI-LG전자 등 4사 맞손… ‘양자·AI 결합 데이터센터’ 시장 선점 나선다

AI 연산 폭증 속 전력·효율 한계 대응… 차세대 인프라 협력 본격화 하이브리드 퀀텀 엣지 데이터센터 공동 구축… 역할 분담 기반...

“AI 잘 쓰는 조직 따로 있다”…실무 중심 역량 평가 시장 본격화

에이블런, 생성형 AI 실무 활용 능력 측정하는 레벨 테스트 공개 유네스코 기준 반영…2단계 검증 구조로 ‘실전 역량’ 정밀 진단 진단부터...