Google has released VaultGemma, an AI language model that protects personal privacy during training. This model has 1 billion parameters, making it the world's largest privacy-preserving AI that uses "differential privacy" technology to prevent personal information leaks. Differential privacy works by intentionally adding noise to prevent AI from memorizing training data exactly. Google researchers found that applying this technology reduces model performance and significantly increases training costs, leading them to develop new training methods. VaultGemma currently performs at levels comparable to non-private models from about five years ago, but shows no detectable memorization of training data, proving its privacy protection effectiveness. Researchers discovered that increasing privacy budgets only works when combined with more computing power or data. The model is freely available on Hugging Face and Kaggle, providing strong privacy guarantees for 1024-token sequences. Google expects this research to serve as a starting point for developing next-generation AI that is both safe and privacy-preserving.
구글이 개인정보를 보호하는 AI 언어모델 '볼트젬마(VaultGemma)'를 공개했다. 이 모델은 10억개의 매개변수를 가진 오픈소스 중 최대 규모의 프라이버시 보장 AI로, 훈련 과정에서 개인정보가 유출되지 않도록 '차등프라이버시' 기술을 적용했다. 차등프라이버시는 AI가 훈련 데이터를 그대로 기억하지 못하도록 의도적으로 노이즈를 추가하는 기술이다. 구글 연구진은 이 기술을 적용하면 모델 성능이 떨어지고 훈련 비용이 크게 늘어난다는 점을 발견했으며, 이를 해결하기 위한 새로운 훈련 방법을 개발했다. 볼트제마는 현재 비프라이버시 모델 대비 약 5년 전 수준의 성능을 보이지만, 훈련 데이터 암기 현상이 전혀 발견되지 않아 개인정보 보호 효과가 입증됐다. 연구진은 프라이버시 예산을 늘리려면 계산 능력이나 데이터양도 함께 늘려야 효과가 있다고 밝혔다. 모델은 허깅페이스와 캐글에서 오픈소스로 공개됐으며, 1024개 토큰 단위로 강력한 프라이버시 보장을 제공한다. 구글은 이번 연구가 안전하고 개인정보를 보호하는 차세대 AI 개발의 출발점이 될 것이라고 기대한다고 밝혔다.
