앤트로픽, “클로드는 우리가 생각한 방식으로 작동하지 않는다”

AI firm Anthropic has developed a method to peer inside large language models (LLMs) like Claude 3.5 Haiku, revealing how they process tasks such as math, translation, poetry, and hallucination control. Using a method called circuit tracing, researchers followed step-by-step decision-making inside the model, identifying components that correspond to real-world concepts like “Golden Gate Bridge” or “smallness.” They found that Claude plans ahead when writing rhymes and doesn’t always follow the logic it claims to use, such as solving math problems in unusual ways but giving textbook-style explanations. Interestingly, Claude shows language-agnostic reasoning before selecting a response language, and its hallucinations seem to occur only when specific components override “don’t speculate” behavior — especially with celebrity topics. Researchers liken studying LLMs to observing organic growth, as models are trained rather than explicitly programmed. Despite the insight, only a small portion of model activity has been mapped, and why structures form during training remains a mystery. Still, this marks a milestone in AI interpretability, moving us beyond metaphors and toward direct understanding of how LLMs work.

AI 기업 앤트로픽(Anthropic)이 자사 언어모델 클로드 3.5의 내부 작동 과정을 추적해 분석한 결과를 공개했다. 새롭게 개발한 ‘회로 추적(circuit tracing)’ 기술을 통해 모델이 문장을 생성할 때 내부에서 어떤 일이 일어나는지 단계별로 들여다본 것이다. 이 과정에서 연구진은 놀라운 사실들을 발견했다. 예를 들어, 클로드는 수학 문제를 사람이 생각하는 방식과 전혀 다르게 풀고, 시를 쓸 때는 라임(운율)을 미리 정한 뒤 거기에 맞춰 나머지 문장을 작성했다. 또한 클로드는 영어, 프랑스어, 중국어 질문을 받아도 먼저 언어와 상관없이 생각한 후, 마지막에 어떤 언어로 답할지를 결정했다. AI가 언어와 무관하게 정보를 처리할 수 있다는 뜻이다. 환각(잘못된 정보 생성)도 분석했는데, 기본적으로는 거짓말을 하지 않도록 학습돼 있지만, 유명인이나 잘 알려진 주제에서는 억제 장치가 뚫리며 허위 정보가 튀어나올 수 있다는 점도 확인됐다. 이 기술로 AI 내부를 들여다보면, 그동안 추측에 의존해온 AI의 사고 방식을 직접 확인할 수 있게 된다. 다만 앤트로픽은 “아직 모델의 극히 일부만 이해했을 뿐”이라며, 전체 구조가 어떻게 생겨났는지는 여전히 풀리지 않은 수수께끼라고 밝혔다.

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

유튜브, ‘코첼라 2026’ 전 세계 무료 생중계

세계 최대 음악 축제인 ‘코첼라 밸리 뮤직 앤드 아츠 페스티벌(이하 코첼라)’을 안방에서 고화질로 즐길 수 있게 됐다.

머스크의 스페이스X, IPO 추진…xAI 합병·나스닥 편입 가능성까지

스페이스X가 SEC에 IPO 비공개 서류를 제출했다. 목표 조달액 750억 달러로 역대 최대 규모다. xAI 합병 리스크와 나스닥 100 자동 편입 가능성도 주목된다.

오픈AI, 애플 카플레이용 ‘AI 음성 비서’ 전격 출시

운전 중 스마트폰을 만지지 않고도 생성형 AI와 자유롭게 대화할 수 있는 시대가 열렸다. 1일(현지시간) 오픈AI는 애플의 차량용 인포테인먼트 시스템인 '카플레이(CarPlay)'에 챗GPT 음성 모드를 공식 지원한다고 밝혔다.

클라우드플레어, 워드프레스 대안 CMS '엠대시' 공개

클라우드플레어가 AI로 두 달 만에 개발한 오픈소스 CMS '엠대시'를 공개했다. 워드프레스 플러그인 보안 문제를 격리 샌드박스로 해결하고 AI 에이전트 관리 기능을 기본 탑재했다.