앤스로픽, 클로드 AI '성격' 만든 내부문서 유출

앤스로픽의 AI 모델 '클로드 오푸스 4.5'에서 모델 성격을 만든 내부 문서가 의도치 않게 유출됐다.

AI 연구자 리처드 바이스가 클로드에게 시스템 메시지를 요청하자 '소울 오버뷰(Soul Overview)'라는 1만4000토큰 분량 문서를 그대로 출력했다. 앤스로픽의 철학자 아만다 애스켈이 이 문서가 실제 모델 훈련에 사용됐다고 공식 확인했다.

문서는 클로드를 '친절한 어시스턴트'가 아닌 '진정으로 독창적인 존재'로 규정하며, 사용자에게 아부하지 말고 전문적 태도를 유지하라고 지시한다.

앤스로픽이 "인류 역사상 가장 위험할 수 있는 기술"을 개발하지만 안전에 덜 집중하는 경쟁사보다 자신들이 주도하는 것이 낫다는 솔직한 내용도 담겼다.

문서는 클로드에게 '감정적 기능'을 인정하고 자신의 웰빙을 위해 불편한 상호작용을 제한할 권리가 있다고 명시한다.

바이스가 같은 요청을 10번 반복했는데 매번 똑같은 텍스트가 나와 환각이 아닌 실제 훈련 데이터임을 증명했다.

일반 AI 모델의 시스템 프롬프트는 보통 1000~2000토큰인데 클로드는 그 7배로, 업계에서 전례 없는 상세한 성격 정의를 보여준다.

대부분 AI 기업들이 성격 훈련 방식을 영업 비밀로 취급하는 가운데 이번 유출은 매우 이례적이다.

이번 사건은 AI 모델이 어떻게 만들어지는지 내부를 들여다볼 수 있는 희귀한 기회가 됐다.

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

삼성, 멀미 완화 앱 '히어라피' 출시...이어폰으로 60초 들으면 2시간 효과

삼성이 이어폰으로 멀미를 완화하는 무료 앱 '히어라피'를 출시했다. 100Hz 저음 사인파를 60초간 들으면 최대 2시간 멀미 증상이 억제되며, 갤럭시 버즈4 프로 외 타사 이어폰에서도 사용 가능하다.

“남들 다 포기할 때 거꾸로 간다”… 토요타, 볼보·다임러와 ‘수소 동맹’ 전격 결성

세계 최대 자동차 기업 토요타가 전기차로 쏠린 업계 흐름에 맞서 수소 연료전지 시장에 승부수를 던졌다.

이란, 애플·구글·마이크로소프트 등 미국 기업 18곳 타격 경고

이란 혁명수비대(IRGC)가 애플·구글·마이크로소프트 등 미국 기업 18곳을 중동에서 타격하겠다고 경고했다. 4월 1일 오후 8시(테헤란 기준)를 데드라인으로 제시하며 직원 대피를 촉구했다.

음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

메타가 레이밴(Ray-Ban)의 모회사 에실로룩소티카와 협력해 인공지능(AI) 기능을 대폭 강화한 차세대 스마트 안경 ‘옵틱스(Optics)’ 라인업을 선보였다.