AI firm Anthropic has developed a method to peer inside large language models (LLMs) like Claude 3.5 Haiku, revealing how they process tasks such as math, translation, poetry, and hallucination control. Using a method called circuit tracing, researchers followed step-by-step decision-making inside the model, identifying components that correspond to real-world concepts like “Golden Gate Bridge” or “smallness.” They found that Claude plans ahead when writing rhymes and doesn’t always follow the logic it claims to use, such as solving math problems in unusual ways but giving textbook-style explanations. Interestingly, Claude shows language-agnostic reasoning before selecting a response language, and its hallucinations seem to occur only when specific components override “don’t speculate” behavior — especially with celebrity topics. Researchers liken studying LLMs to observing organic growth, as models are trained rather than explicitly programmed. Despite the insight, only a small portion of model activity has been mapped, and why structures form during training remains a mystery. Still, this marks a milestone in AI interpretability, moving us beyond metaphors and toward direct understanding of how LLMs work.
AI 기업 앤트로픽(Anthropic)이 자사 언어모델 클로드 3.5의 내부 작동 과정을 추적해 분석한 결과를 공개했다. 새롭게 개발한 ‘회로 추적(circuit tracing)’ 기술을 통해 모델이 문장을 생성할 때 내부에서 어떤 일이 일어나는지 단계별로 들여다본 것이다. 이 과정에서 연구진은 놀라운 사실들을 발견했다. 예를 들어, 클로드는 수학 문제를 사람이 생각하는 방식과 전혀 다르게 풀고, 시를 쓸 때는 라임(운율)을 미리 정한 뒤 거기에 맞춰 나머지 문장을 작성했다. 또한 클로드는 영어, 프랑스어, 중국어 질문을 받아도 먼저 언어와 상관없이 생각한 후, 마지막에 어떤 언어로 답할지를 결정했다. AI가 언어와 무관하게 정보를 처리할 수 있다는 뜻이다. 환각(잘못된 정보 생성)도 분석했는데, 기본적으로는 거짓말을 하지 않도록 학습돼 있지만, 유명인이나 잘 알려진 주제에서는 억제 장치가 뚫리며 허위 정보가 튀어나올 수 있다는 점도 확인됐다. 이 기술로 AI 내부를 들여다보면, 그동안 추측에 의존해온 AI의 사고 방식을 직접 확인할 수 있게 된다. 다만 앤트로픽은 “아직 모델의 극히 일부만 이해했을 뿐”이라며, 전체 구조가 어떻게 생겨났는지는 여전히 풀리지 않은 수수께끼라고 밝혔다.
