"챗GPT·클로드·제미나이, 개방형 질문엔 '엇비슷한 답변'"...창의성 획일화 우려 현실로

챗GPT·클로드·제미나이 등 주요 AI 언어 모델들이 만든 회사는 달라도 창의적인 질문에는 놀랍도록 비슷한 답변을 내놓는다는 사실이 대규모 실험으로 처음 확인됐다.

워싱턴대학교·앨런AI연구소(AI2) 공동연구팀은 이 같은 내용을 담은 논문을 2025년 10월 무료 논문 저장소인 아카이브(arXiv)에 공개했다. 해당 연구는 인공지능 분야 최고 권위 학회 신경정보처리시스템학회(NeurIPS) 2025에서 구두 발표 논문으로 채택됐다.

"창업 아이디어 10개를 추천해줘."

이 질문을 챗GPT·클로드·제미나이에 각각 던지면 어떻게 될까. 문장 표현은 조금씩 달라도 결국 'AI 기반 앱', '구독 서비스', '온라인 플랫폼' 같은 비슷한 범주의 아이디어가 돌아온다. 서로 경쟁하는 다른 회사 제품인데도 말이다.

챗GPT·클로드·제미나이 등 주요 AI 언어 모델들이 창의적인 질문에는 비슷한 답변을 내놓는다는 사실이 실험으로 처음 확인됐다. (AI 생성 이미지)

연구팀은 이처럼 AI 모델들이 마치 하나의 두뇌처럼 비슷하게 작동하는 현상에 '인공 하이브마인드(Artificial Hivemind)'라는 이름을 붙였다. 하이브마인드란 벌집에서 수많은 일벌이 여왕벌의 통제 아래 획일적으로 움직이는 것을 빗댄 표현이다. 수십억 명이 같은 AI를 매일 쓰는 지금, 사람들의 사고방식 자체가 서서히 비슷해질 수 있다는 경고다.

연구팀은 실제 사용자들이 AI에게 던진 질문 2만6천 개를 모아 '인피니티챗(Infinity-Chat)'이라는 데이터셋을 만들었다. "2+2는 얼마?"처럼 정답이 정해진 질문은 제외했다. "새 취미를 추천해줘", "이 상황이라면 어떻게 할 것 같아?" 처럼 사람마다 다른 답이 나올 수 있는 개방형 질문만 골랐다.

실험 결과, 동질화는 두 가지 방식으로 나타났다. 하나는 같은 AI에 같은 질문을 여러 번 해도 비슷한 답이 반복되는 것이고, 더 심각한 문제는 서로 다른 회사의 AI들끼리도 답변이 엇비슷하다는 점이었다.

"그래도 챗GPT랑 클로드는 다른 답을 주지 않나요?"라고 반문하는 이들이 많다. 실제로 AI는 매번 조금씩 다른 문장을 만들어낸다. 확률을 기반으로 작동하기 때문이다.

하지만 연구팀이 문제 삼은 것은 문장이 아니라 내용의 범위다. 옷은 매번 달라 보여도 그 안의 몸은 같다는 얘기다. 이 AI든 저 AI든 결국 비슷한 틀 안에서만 아이디어를 제안한다는 것이 연구의 핵심 발견이다.

문제의 뿌리는 AI를 만드는 방식에 있다. 요즘 AI들은 'RLHF(인간 피드백 강화학습)'라는 방법으로 훈련된다. 사람들이 "이 답변이 더 좋아요"라고 평가하면 AI는 그 방향으로 학습한다.

arXiv에 공개된 지아이 장 등의 연구에 따르면, 여기에 함정이 있다. 사람들은 무의식적으로 익숙하고 평범한 답변을 더 높이 평가하는 경향이 있다. 연구팀은 이를 '전형성 편향(typicality bias)'이라고 불렀다. AI가 이런 평가를 반복적으로 학습하다 보니, 시간이 갈수록 안전하고 뻔한 답만 내놓게 된다는 것이다. 이 현상을 '모드 붕괴(mode collapse)'라고 한다.

같은 연구팀은 해법도 제시했다. '언어화 샘플링(Verbalized Sampling)'이라는 기법으로, "커피 농담을 해줘" 대신 "커피 농담 5개를 각각의 확률과 함께 알려줘"라고 묻는 방식이다. 이것만으로도 창작 과제에서 AI의 답변 다양성이 뚜렷하게 높아졌다고 보고됐다.

학술지 '컴퓨터와 인간 행동: 인공 인간(Computers in Human Behavior: Artificial Humans)' 2025년 게재 논문에 따르면, 킵범 문 등 연구팀이 대학 입학 에세이 2,200편을 분석한 결과 GPT-4가 쓴 에세이보다 사람이 직접 쓴 에세이가 전체적으로 훨씬 다양한 관점과 새로운 아이디어를 담고 있었다. 한 명이 AI를 쓰면 더 좋은 글을 쓸 수 있지만, 모두가 AI를 쓰면 사회 전체의 생각이 좁아진다는 역설이다.

하지만 arXiv에 공개된 대규모언어모델(LLM) 인지 다양성 연구에 따르면, AI 사용이 늘어난 레딧 같은 온라인 커뮤니티와 학술 논문에서도 문체 다양성이 실제로 줄어들고 있는 것으로 측정됐다. 획일화는 이미 우리 주변에서 진행 중이라는 뜻이다.

연구팀은 Infinity-Chat 데이터셋을 공개하며, 이를 AI의 장기적 안전 리스크를 연구하기 위한 첫 번째 대규모 공개 자원으로 자리매김했다. AI가 만들어내는 답변이 나쁜 것이 아니라, 모두가 비슷해진다는 것 자체가 문제라는 시각이다.

다양한 관점이 부딪히며 새로운 아이디어가 나오는 사회가 아니라, 수십억 명이 같은 AI에게 길들여진 사회가 오고 있다는 것이 이 연구가 던지는 경고다.

정재엽 기자

anihil@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

“공간은 고정되지 않는다”… MRAG, 디지털 전환으로 프랜차이즈 모델 재정의

AI 기반 공간 구축·운영 플랫폼 기업 MRAG가 프랜차이즈 시장을 겨냥한 새로운 공간 운영 모델을 공개하며 사업 영역 확장에 나섰다. 기존 공간을 고정된 용도로 사용하는 방식에서 벗어나, 운영 시나리오에 따라 공간을 유연하게 전환하는 구조를 제시했다는 점에서 주목된다.

탄소가 ‘스펙’이 된 시대…제품탄소발자국, 공급망 경쟁력 가른다

유럽연합(EU)은 탄소국경조정제도(CBAM), 에코디자인 규정(ESPR), 디지털제품여권(DPP) 도입을 통해 제품 단위 탄소 정보를 요구하는 체계를 구축하고 있다. 이러한 추세 속에 제품탄소발자국이 산업의 또 다른 기준으로 자리 잡으며 기업들의 대응이 빨라지고 있다. (이미지=젠스파크로 생성)

NAB 무대 오르는 가우디오랩…콘텐츠 현지화 AI 플랫폼 ‘GSP’ 글로벌 출격

가우디오랩은 오는 19일부터 4일간 미국 라스베이거스에서 열리는 NAB Show 2026에 참가해 자사 콘텐츠 현지화 AI 플랫폼 ‘가우디오 스튜디오 프로(Gaudio Studio Pro, 이하 GSP)’를 글로벌 시장에 선보일 예정이다. 그동안 주요 글로벌 전시에서 기술력을 알려왔지만, 방송·미디어 산업의 핵심 행사로 꼽히는 NAB 무대에 오르는 것은 이번이 처음이다.

GPAI, 유료화 두 달 만에 매출 830%…이공계 AI 에이전트, 글로벌 시장서 존재감 확대

구독자 절반 미국·유럽 집중…연구자 중심 사용자 구조 형성 개인·팀·기업 요금제 도입 이후 빠른 수익화 성과 추론·시각화 결합한 이공계 특화 기능,...