There are growing suspicions that Chinese AI lab DeepSeek may have used data from Google’s Gemini model without authorization to train the latest version of its reasoning model, R1. AI expert Sam Paech claimed that DeepSeek’s new model (R1-0528) uses expressions similar to those favored by Google’s Gemini 2.5 Pro, suggesting it may have been trained on Gemini outputs. Another developer also pointed out that the model’s “thought traces” strongly resemble those of Gemini. DeepSeek has previously faced allegations of training its models on OpenAI’s ChatGPT conversations. In fact, its earlier V3 model was frequently found identifying itself as ChatGPT. OpenAI reportedly detected that DeepSeek attempted to perform data distillation through its API, and Microsoft, a close OpenAI partner, is said to have discovered large-scale data exfiltration via OpenAI developer accounts believed to be linked to DeepSeek.
중국 AI 연구소 딥시크(DeepSeek)가 최근 공개한 추론 모델 R1의 최신 버전에 구글의 제미나이 모델 데이터가 무단 활용됐을 가능성이 제기됐다. AI 전문가 샘 페이지는 딥시크의 신형 모델(R1-0528)이 구글 Gemini 2.5 Pro와 유사한 표현을 사용하는 점을 근거로 “제미나이 출력물을 학습에 사용한 정황이 있다”고 주장했다. 또 다른 개발자 역시 해당 모델의 사고 흔적(thought trace)이 제미나이 모델과 매우 흡사하다고 지적했다. 딥시크는 과거에도 오픈AI의 챗GPT 대화 데이터를 학습에 사용한 의혹을 받은 바 있다. 실제로 V3 모델은 자주 자신을 챗GPT라고 소개한 것으로 확인됐다. 오픈AI는 딥시크가 자사 API를 통해 데이터 증류(distillation)를 시도한 정황을 포착했으며, 마이크로소프트 역시 오픈AI 계정을 통한 대량 데이터 유출을 감지한 것으로 알려졌다.
