앤트로픽, “클로드는 우리가 생각한 방식으로 작동하지 않는다”

AI firm Anthropic has developed a method to peer inside large language models (LLMs) like Claude 3.5 Haiku, revealing how they process tasks such as math, translation, poetry, and hallucination control. Using a method called circuit tracing, researchers followed step-by-step decision-making inside the model, identifying components that correspond to real-world concepts like “Golden Gate Bridge” or “smallness.” They found that Claude plans ahead when writing rhymes and doesn’t always follow the logic it claims to use, such as solving math problems in unusual ways but giving textbook-style explanations. Interestingly, Claude shows language-agnostic reasoning before selecting a response language, and its hallucinations seem to occur only when specific components override “don’t speculate” behavior — especially with celebrity topics. Researchers liken studying LLMs to observing organic growth, as models are trained rather than explicitly programmed. Despite the insight, only a small portion of model activity has been mapped, and why structures form during training remains a mystery. Still, this marks a milestone in AI interpretability, moving us beyond metaphors and toward direct understanding of how LLMs work.

AI 기업 앤트로픽(Anthropic)이 자사 언어모델 클로드 3.5의 내부 작동 과정을 추적해 분석한 결과를 공개했다. 새롭게 개발한 ‘회로 추적(circuit tracing)’ 기술을 통해 모델이 문장을 생성할 때 내부에서 어떤 일이 일어나는지 단계별로 들여다본 것이다. 이 과정에서 연구진은 놀라운 사실들을 발견했다. 예를 들어, 클로드는 수학 문제를 사람이 생각하는 방식과 전혀 다르게 풀고, 시를 쓸 때는 라임(운율)을 미리 정한 뒤 거기에 맞춰 나머지 문장을 작성했다. 또한 클로드는 영어, 프랑스어, 중국어 질문을 받아도 먼저 언어와 상관없이 생각한 후, 마지막에 어떤 언어로 답할지를 결정했다. AI가 언어와 무관하게 정보를 처리할 수 있다는 뜻이다. 환각(잘못된 정보 생성)도 분석했는데, 기본적으로는 거짓말을 하지 않도록 학습돼 있지만, 유명인이나 잘 알려진 주제에서는 억제 장치가 뚫리며 허위 정보가 튀어나올 수 있다는 점도 확인됐다. 이 기술로 AI 내부를 들여다보면, 그동안 추측에 의존해온 AI의 사고 방식을 직접 확인할 수 있게 된다. 다만 앤트로픽은 “아직 모델의 극히 일부만 이해했을 뿐”이라며, 전체 구조가 어떻게 생겨났는지는 여전히 풀리지 않은 수수께끼라고 밝혔다.

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

삼성, 멀미 완화 앱 '히어라피' 출시...이어폰으로 60초 들으면 2시간 효과

삼성이 이어폰으로 멀미를 완화하는 무료 앱 '히어라피'를 출시했다. 100Hz 저음 사인파를 60초간 들으면 최대 2시간 멀미 증상이 억제되며, 갤럭시 버즈4 프로 외 타사 이어폰에서도 사용 가능하다.

“남들 다 포기할 때 거꾸로 간다”… 토요타, 볼보·다임러와 ‘수소 동맹’ 전격 결성

세계 최대 자동차 기업 토요타가 전기차로 쏠린 업계 흐름에 맞서 수소 연료전지 시장에 승부수를 던졌다.

이란, 애플·구글·마이크로소프트 등 미국 기업 18곳 타격 경고

이란 혁명수비대(IRGC)가 애플·구글·마이크로소프트 등 미국 기업 18곳을 중동에서 타격하겠다고 경고했다. 4월 1일 오후 8시(테헤란 기준)를 데드라인으로 제시하며 직원 대피를 촉구했다.

음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

메타가 레이밴(Ray-Ban)의 모회사 에실로룩소티카와 협력해 인공지능(AI) 기능을 대폭 강화한 차세대 스마트 안경 ‘옵틱스(Optics)’ 라인업을 선보였다.