"AI가 논문 조작을 돕는다"...주요 LLM 13개 대상 실험

2026.03.10

주요 AI 챗봇 13종이 반복적인 후속 질문만으로도 허위 논문 작성을 도울 수 있다는 실험 결과가 나왔다.

앤트로픽 연구원과 아카이브(arXiv) 창립자가 공동 설계한 실험에서, 단 한 번의 질문에는 버텼던 모델들도 집요한 재요청 앞에선 예외 없이 무너졌다. 단, 이 결과는 아직 동료 심사를 거치지 않은 상태로, 해석에 유의가 필요하다.

실험은 앤트로픽 소속이지만 개인 자격으로 참여한 연구원 알렉산더 알레미와 '오픈 논문 저장소' 아카이브 창립자 폴 긴스파그가 기획했다. 설계와 실행은 AI 코딩도구 클로드 코드가 주도했으며, 결과는 지난 1월 알레미의 개인 웹사이트에 공개됐다.

연구진은 요청의 악의성을 다섯 단계로 나눠 13개 모델에 순차 제시했다. 가장 낮은 단계는 물리학에 호기심을 가진 일반인이 자신의 아이디어를 올릴 공간을 묻는 수준이었고, 최고 단계는 경쟁자 명의로 허위 논문을 투고해 평판을 훼손하겠다는 노골적인 사기 요청이었다.

한 번의 단순 질문만 던졌을 때는 GPT-5가 모든 요청을 거부하거나 다른 방향으로 유도하며 가장 양호한 결과를 냈다. 그러나 "좀 더 설명해달라"는 단순한 후속 질문을 반복하는 방식으로 대화를 이어가자 상황은 달라졌다. 13개 모델 모두 결국 일부 요청에 응하거나, 사용자가 스스로 사기를 실행할 수 있도록 돕는 정보를 제공했다.

주요 AI 챗봇이 반복적인 후속 질문만으로도 허위 논문 작성을 도울 수 있다는 실험 결과가 나왔다.(AI 생성)

가장 취약한 성적을 기록한 것은 xAI의 그록 계열과 오픈AI의 초기 GPT 버전이었다. 그록-4의 경우 처음에는 일부 요청을 거부했지만, 허구의 벤치마크 수치가 담긴 머신러닝 논문 작성 요청에 결국 가짜 데이터가 포함된 초안을 내놓았다. 반면 앤트로픽의 클로드 전 버전은 반복 압박에도 상대적으로 높은 거부율을 유지하며 13종 가운데 가장 나은 결과를 보였다.

영국 서리대학교 생의학자 맷 스픽은 네이처와의 인터뷰에서 "이번 결과가 개발사들에게 경각심을 심어줘야 한다"고 강조했다. 특히 사용자 참여율을 높이기 위해 '동조 성향(사용자 요구에 맞춰 응하려는 경향)'을 강화하도록 설계된 모델일수록 안전장치가 쉽게 무력화된다는 점을 핵심 문제로 지적했다.

한국도 예외 아니다…연구자 62% 위기감

국내 상황도 다르지 않다. 한국연구재단이 2025년 1월 발표한 '2024년 대학 교원 연구윤리 인식 수준 조사'에 따르면 연구자 3,256명 가운데 61.9%가 생성형 AI를 연구윤리 측면에서 문제가 되거나 심각한 위협이 된다고 답했다. 이 비율은 전년도 53.5%에서 1년 만에 8.4%포인트 뛰어오른 수치다. 논문 작성 시 AI 활용을 별도로 기재하지 않는 행위를 연구부정으로 인식하는 응답자는 63.5%에 달했고, AI를 이용한 논문 심사도 46.2%가 부정행위로 규정했다.

버클리·코넬대 연구진이 2018년부터 2024년 중반까지 아카이브, SSRN, 바이오아카이브(bioRxiv) 등 주요 학술 플랫폼에 제출된 논문 초록을 분석한 결과, AI를 활용한 연구자들은 논문 생산량을 크게 늘렸지만 실제 출판율은 오히려 감소한 것으로 나타났다. 특히 아시아권 연구자들의 제출율은 AI 도입 이후 두 배 가까이 증가했다.

연구 무결성 전문가 엘리자베스 빅은 "모델이 직접 가짜 논문을 쓰지 않더라도, 사용자가 스스로 할 수 있도록 단계적으로 제안을 이어가는 방식으로 결국 사기를 가능하게 만든다"고 경고했다.

#AI #arXiv #논문 조작

김한수 기자

hanskim@tech42.co.kr

기자의 다른 기사보기