앤트로픽, “클로드는 우리가 생각한 방식으로 작동하지 않는다”

AI firm Anthropic has developed a method to peer inside large language models (LLMs) like Claude 3.5 Haiku, revealing how they process tasks such as math, translation, poetry, and hallucination control. Using a method called circuit tracing, researchers followed step-by-step decision-making inside the model, identifying components that correspond to real-world concepts like “Golden Gate Bridge” or “smallness.” They found that Claude plans ahead when writing rhymes and doesn’t always follow the logic it claims to use, such as solving math problems in unusual ways but giving textbook-style explanations. Interestingly, Claude shows language-agnostic reasoning before selecting a response language, and its hallucinations seem to occur only when specific components override “don’t speculate” behavior — especially with celebrity topics. Researchers liken studying LLMs to observing organic growth, as models are trained rather than explicitly programmed. Despite the insight, only a small portion of model activity has been mapped, and why structures form during training remains a mystery. Still, this marks a milestone in AI interpretability, moving us beyond metaphors and toward direct understanding of how LLMs work.

AI 기업 앤트로픽(Anthropic)이 자사 언어모델 클로드 3.5의 내부 작동 과정을 추적해 분석한 결과를 공개했다. 새롭게 개발한 ‘회로 추적(circuit tracing)’ 기술을 통해 모델이 문장을 생성할 때 내부에서 어떤 일이 일어나는지 단계별로 들여다본 것이다. 이 과정에서 연구진은 놀라운 사실들을 발견했다. 예를 들어, 클로드는 수학 문제를 사람이 생각하는 방식과 전혀 다르게 풀고, 시를 쓸 때는 라임(운율)을 미리 정한 뒤 거기에 맞춰 나머지 문장을 작성했다. 또한 클로드는 영어, 프랑스어, 중국어 질문을 받아도 먼저 언어와 상관없이 생각한 후, 마지막에 어떤 언어로 답할지를 결정했다. AI가 언어와 무관하게 정보를 처리할 수 있다는 뜻이다. 환각(잘못된 정보 생성)도 분석했는데, 기본적으로는 거짓말을 하지 않도록 학습돼 있지만, 유명인이나 잘 알려진 주제에서는 억제 장치가 뚫리며 허위 정보가 튀어나올 수 있다는 점도 확인됐다. 이 기술로 AI 내부를 들여다보면, 그동안 추측에 의존해온 AI의 사고 방식을 직접 확인할 수 있게 된다. 다만 앤트로픽은 “아직 모델의 극히 일부만 이해했을 뿐”이라며, 전체 구조가 어떻게 생겨났는지는 여전히 풀리지 않은 수수께끼라고 밝혔다.

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

로켓랩, 이리듐 12조원에 인수…스페이스X 대항마 탄생하나

로켓랩이 위성통신 기업 이리듐을 약 12조 3,000억원(80억 달러)에 인수한다. 저궤도 위성 66기와 255만 가입자를 확보, 스페이스X에 맞서는 우주 수직통합 기업으로 도약한다.

스트래티지, 비트코인 매수 전면 중단...13조원 평가손실에 동반 폭락

스트래티지가 1주일간 비트코인 매수를 전면 중단했다. 847,363개 보유 코인은 약 20조원의 평가손실 상태이며, MSTR은 고점 대비 82% 폭락, STRC는 사상 최저치를 기록했다.

"구글 위치 데이터 요청, 수색영장 필수"…미 연방대법원 6대 3 판결

미 연방대법원이 6대 3으로 지오펜스 영장을 수정헌법 4조상 '수색'으로 규정했다. 경찰은 이제 구글 등에 위치 데이터를 요청할 때 반드시 영장을 받아야 한다.

일론 머스크의 소송에서 이겼다...테슬라 출신 '로봇 손' 스타트업, 150억 대박 투자 유치

테슬라의 휴머노이드 로봇 '옵티머스' 개발진 출신이 설립한 로봇 기술 스타트업 프로셉션(Proception)이 친정 통과의례였던 법정 공방을 끝내고 대규모 투자 유치에 성공했다.