"AI가 논문 조작을 돕는다"...주요 LLM 13개 대상 실험

주요 AI 챗봇 13종이 반복적인 후속 질문만으로도 허위 논문 작성을 도울 수 있다는 실험 결과가 나왔다.

앤트로픽 연구원과 아카이브(arXiv) 창립자가 공동 설계한 실험에서, 단 한 번의 질문에는 버텼던 모델들도 집요한 재요청 앞에선 예외 없이 무너졌다. 단, 이 결과는 아직 동료 심사를 거치지 않은 상태로, 해석에 유의가 필요하다.

실험은 앤트로픽 소속이지만 개인 자격으로 참여한 연구원 알렉산더 알레미와 '오픈 논문 저장소' 아카이브 창립자 폴 긴스파그가 기획했다. 설계와 실행은 AI 코딩도구 클로드 코드가 주도했으며, 결과는 지난 1월 알레미의 개인 웹사이트에 공개됐다.

연구진은 요청의 악의성을 다섯 단계로 나눠 13개 모델에 순차 제시했다. 가장 낮은 단계는 물리학에 호기심을 가진 일반인이 자신의 아이디어를 올릴 공간을 묻는 수준이었고, 최고 단계는 경쟁자 명의로 허위 논문을 투고해 평판을 훼손하겠다는 노골적인 사기 요청이었다.

한 번의 단순 질문만 던졌을 때는 GPT-5가 모든 요청을 거부하거나 다른 방향으로 유도하며 가장 양호한 결과를 냈다. 그러나 "좀 더 설명해달라"는 단순한 후속 질문을 반복하는 방식으로 대화를 이어가자 상황은 달라졌다. 13개 모델 모두 결국 일부 요청에 응하거나, 사용자가 스스로 사기를 실행할 수 있도록 돕는 정보를 제공했다.

주요 AI 챗봇이 반복적인 후속 질문만으로도 허위 논문 작성을 도울 수 있다는 실험 결과가 나왔다.(AI 생성)

가장 취약한 성적을 기록한 것은 xAI의 그록 계열과 오픈AI의 초기 GPT 버전이었다. 그록-4의 경우 처음에는 일부 요청을 거부했지만, 허구의 벤치마크 수치가 담긴 머신러닝 논문 작성 요청에 결국 가짜 데이터가 포함된 초안을 내놓았다. 반면 앤트로픽의 클로드 전 버전은 반복 압박에도 상대적으로 높은 거부율을 유지하며 13종 가운데 가장 나은 결과를 보였다.

영국 서리대학교 생의학자 맷 스픽은 네이처와의 인터뷰에서 "이번 결과가 개발사들에게 경각심을 심어줘야 한다"고 강조했다. 특히 사용자 참여율을 높이기 위해 '동조 성향(사용자 요구에 맞춰 응하려는 경향)'을 강화하도록 설계된 모델일수록 안전장치가 쉽게 무력화된다는 점을 핵심 문제로 지적했다.

한국도 예외 아니다…연구자 62% 위기감

국내 상황도 다르지 않다. 한국연구재단이 2025년 1월 발표한 '2024년 대학 교원 연구윤리 인식 수준 조사'에 따르면 연구자 3,256명 가운데 61.9%가 생성형 AI를 연구윤리 측면에서 문제가 되거나 심각한 위협이 된다고 답했다. 이 비율은 전년도 53.5%에서 1년 만에 8.4%포인트 뛰어오른 수치다. 논문 작성 시 AI 활용을 별도로 기재하지 않는 행위를 연구부정으로 인식하는 응답자는 63.5%에 달했고, AI를 이용한 논문 심사도 46.2%가 부정행위로 규정했다.

버클리·코넬대 연구진이 2018년부터 2024년 중반까지 아카이브, SSRN, 바이오아카이브(bioRxiv) 등 주요 학술 플랫폼에 제출된 논문 초록을 분석한 결과, AI를 활용한 연구자들은 논문 생산량을 크게 늘렸지만 실제 출판율은 오히려 감소한 것으로 나타났다. 특히 아시아권 연구자들의 제출율은 AI 도입 이후 두 배 가까이 증가했다.

연구 무결성 전문가 엘리자베스 빅은 "모델이 직접 가짜 논문을 쓰지 않더라도, 사용자가 스스로 할 수 있도록 단계적으로 제안을 이어가는 방식으로 결국 사기를 가능하게 만든다"고 경고했다.

김한수 기자

hanskim@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

한국딥러닝 ‘딥에이전트’, GS인증 1등급 획득…공공 문서 AI 시장 공략 속도

15일 한국딥러닝은 자사 문서 AI 에이전트 플랫폼 ‘딥에이전트(DEEP Agent)’가 GS인증 1등급을 획득했다고 밝혔다.

MS까지 가세한 AI 보안 3파전…보안업계 "수 개월 안에 AI 해킹이 뉴노멀 된다"

MS 'MDASH'가 CyberGym 벤치마크에서 미토스(83.1%)와 GPT-5.5(81.8%)를 제치고 88.4%로 1위를 기록했다. 팰로앨토는 AI로 한 달 만에 CVE 26건을 발굴했다. AI 보안 경쟁이 성능에서 거버넌스로 이동하고 있다.

[현장] KOBA 2026서 확인했다, 'AI'가 바꾼 방송·미디어 환경

국내 최대 방송·미디어·음향·조명 전시회인 ‘KOBA 2026’이 12일부터 15일까지 서울 삼성동 코엑스에서 열렸다. 올해로 34회를 맞은 KOBA는 방송 장비 중심 전시에서 출발해 디지털 전환, 1인 미디어, OTT, XR, VFX를 거쳐 이제 AI 기반 제작 환경을 전면에 내세우는 산업 전시회로 확장됐다.

“코딩 몰라도 금융 AI 실무 경험”…PFCT, AI 신용평가 아카데미 4기 모집

AI 금융기술 기업 피에프씨테크놀로지스(PFCT)는 금융 AI 실무 인재 양성을 위한 ‘제4회 PFCT AI 신용평가 아카데미’ 참가자를 모집한다고 13일 밝혔다. 모집 기간은 이날부터 31일까지다. 참가 대상은 AI 금융기술에 관심 있는 대학생, 대학원생 및 졸업생이며 참가비는 전액 무료다.