"챗GPT·클로드·제미나이, 개방형 질문엔 '엇비슷한 답변'"...창의성 획일화 우려 현실로

2026.03.16

챗GPT·클로드·제미나이 등 주요 AI 언어 모델들이 만든 회사는 달라도 창의적인 질문에는 놀랍도록 비슷한 답변을 내놓는다는 사실이 대규모 실험으로 처음 확인됐다.

워싱턴대학교·앨런AI연구소(AI2) 공동연구팀은 이 같은 내용을 담은 논문을 2025년 10월 무료 논문 저장소인 아카이브(arXiv)에 공개했다. 해당 연구는 인공지능 분야 최고 권위 학회 신경정보처리시스템학회(NeurIPS) 2025에서 구두 발표 논문으로 채택됐다.

"창업 아이디어 10개를 추천해줘."

이 질문을 챗GPT·클로드·제미나이에 각각 던지면 어떻게 될까. 문장 표현은 조금씩 달라도 결국 'AI 기반 앱', '구독 서비스', '온라인 플랫폼' 같은 비슷한 범주의 아이디어가 돌아온다. 서로 경쟁하는 다른 회사 제품인데도 말이다.

챗GPT·클로드·제미나이 등 주요 AI 언어 모델들이 창의적인 질문에는 비슷한 답변을 내놓는다는 사실이 실험으로 처음 확인됐다. (AI 생성 이미지)

연구팀은 이처럼 AI 모델들이 마치 하나의 두뇌처럼 비슷하게 작동하는 현상에 '인공 하이브마인드(Artificial Hivemind)'라는 이름을 붙였다. 하이브마인드란 벌집에서 수많은 일벌이 여왕벌의 통제 아래 획일적으로 움직이는 것을 빗댄 표현이다. 수십억 명이 같은 AI를 매일 쓰는 지금, 사람들의 사고방식 자체가 서서히 비슷해질 수 있다는 경고다.

연구팀은 실제 사용자들이 AI에게 던진 질문 2만6천 개를 모아 '인피니티챗(Infinity-Chat)'이라는 데이터셋을 만들었다. "2+2는 얼마?"처럼 정답이 정해진 질문은 제외했다. "새 취미를 추천해줘", "이 상황이라면 어떻게 할 것 같아?" 처럼 사람마다 다른 답이 나올 수 있는 개방형 질문만 골랐다.

실험 결과, 동질화는 두 가지 방식으로 나타났다. 하나는 같은 AI에 같은 질문을 여러 번 해도 비슷한 답이 반복되는 것이고, 더 심각한 문제는 서로 다른 회사의 AI들끼리도 답변이 엇비슷하다는 점이었다.

"그래도 챗GPT랑 클로드는 다른 답을 주지 않나요?"라고 반문하는 이들이 많다. 실제로 AI는 매번 조금씩 다른 문장을 만들어낸다. 확률을 기반으로 작동하기 때문이다.

하지만 연구팀이 문제 삼은 것은 문장이 아니라 내용의 범위다. 옷은 매번 달라 보여도 그 안의 몸은 같다는 얘기다. 이 AI든 저 AI든 결국 비슷한 틀 안에서만 아이디어를 제안한다는 것이 연구의 핵심 발견이다.

문제의 뿌리는 AI를 만드는 방식에 있다. 요즘 AI들은 'RLHF(인간 피드백 강화학습)'라는 방법으로 훈련된다. 사람들이 "이 답변이 더 좋아요"라고 평가하면 AI는 그 방향으로 학습한다.

arXiv에 공개된 지아이 장 등의 연구에 따르면, 여기에 함정이 있다. 사람들은 무의식적으로 익숙하고 평범한 답변을 더 높이 평가하는 경향이 있다. 연구팀은 이를 '전형성 편향(typicality bias)'이라고 불렀다. AI가 이런 평가를 반복적으로 학습하다 보니, 시간이 갈수록 안전하고 뻔한 답만 내놓게 된다는 것이다. 이 현상을 '모드 붕괴(mode collapse)'라고 한다.

같은 연구팀은 해법도 제시했다. '언어화 샘플링(Verbalized Sampling)'이라는 기법으로, "커피 농담을 해줘" 대신 "커피 농담 5개를 각각의 확률과 함께 알려줘"라고 묻는 방식이다. 이것만으로도 창작 과제에서 AI의 답변 다양성이 뚜렷하게 높아졌다고 보고됐다.

학술지 '컴퓨터와 인간 행동: 인공 인간(Computers in Human Behavior: Artificial Humans)' 2025년 게재 논문에 따르면, 킵범 문 등 연구팀이 대학 입학 에세이 2,200편을 분석한 결과 GPT-4가 쓴 에세이보다 사람이 직접 쓴 에세이가 전체적으로 훨씬 다양한 관점과 새로운 아이디어를 담고 있었다. 한 명이 AI를 쓰면 더 좋은 글을 쓸 수 있지만, 모두가 AI를 쓰면 사회 전체의 생각이 좁아진다는 역설이다.

하지만 arXiv에 공개된 대규모언어모델(LLM) 인지 다양성 연구에 따르면, AI 사용이 늘어난 레딧 같은 온라인 커뮤니티와 학술 논문에서도 문체 다양성이 실제로 줄어들고 있는 것으로 측정됐다. 획일화는 이미 우리 주변에서 진행 중이라는 뜻이다.

연구팀은 Infinity-Chat 데이터셋을 공개하며, 이를 AI의 장기적 안전 리스크를 연구하기 위한 첫 번째 대규모 공개 자원으로 자리매김했다. AI가 만들어내는 답변이 나쁜 것이 아니라, 모두가 비슷해진다는 것 자체가 문제라는 시각이다.

다양한 관점이 부딪히며 새로운 아이디어가 나오는 사회가 아니라, 수십억 명이 같은 AI에게 길들여진 사회가 오고 있다는 것이 이 연구가 던지는 경고다.

#Artificial Hivemind #LLM

정재엽 기자

anihil@tech42.co.kr

기자의 다른 기사보기