인공지능이 화면 속 가상세계를 벗어나 우리가 사는 현실공간으로 성큼 다가왔다. 기계는 이제 단순히 텍스트를 생성하거나 이미지를 만드는 수준을 넘어, 실제 물체를 잡고 계단을 오르며 도로를 달린다. 이 변화의 핵심에는 '물리적 지능'이라 불리는 새로운 AI 패러다임이 자리잡고 있다.
지난 수십 년간 인공지능 연구자들이 풀지 못한 가장 어려운 숙제는 디지털 세계의 지능을 3차원 물리공간으로 옮기는 일이었다. 컴퓨터 비전, 자연어처리, 로봇공학이 각각 발전했지만, 이들을 하나로 엮어 기계에게 진정한 자율성을 부여하는 것은 별개의 문제였다. 그러나 최근 등장한 통합 AI 모델들은 '보는 것'과 '이해하는 것', 그리고 '행동하는 것'을 단일 신경망 안에서 처리할 수 있게 되면서 이 난제에 돌파구를 마련했다.

이러한 통합 모델의 핵심 원리는 서로 다른 종류의 정보를 하나의 언어로 번역하는 것이다. 카메라가 포착한 영상 신호, 사람이 내린 음성 명령, 그리고 기계가 취해야 할 동작을 모두 같은 형식의 데이터로 변환해 처리한다. 마치 외교관이 여러 나라 언어를 통역하듯, AI는 시각정보와 언어정보를 행동명령으로 번역해낸다. 이 방식 덕분에 로봇은 "저기 있는 빨간 컵을 가져와"라는 한 문장만으로도 물체를 인식하고, 경로를 계획하고, 팔을 움직여 임무를 완수할 수 있게 됐다.
인간형 로봇 분야에서 이 기술이 가져온 변화는 극적이다. 과거 로봇들은 엔지니어가 미리 작성한 코드에 따라 정해진 동작만 반복했다. 공장 조립라인처럼 환경이 통제된 공간에서는 효과적이었지만, 예상치 못한 상황이 발생하면 속수무책이었다. 그러나 새로운 AI 모델을 장착한 로봇은 상황을 스스로 판단하고 해법을 찾아낸다. 식탁 위에 컵이 쓰러져 있어도, 의자가 길을 막고 있어도, 로봇은 실시간으로 전략을 조정하며 임무를 수행한다.
자율주행 분야 역시 비슷한 진화를 겪고 있다. 초기 자율주행 시스템들은 수많은 규칙과 시나리오를 하나하나 프로그래밍해야 했다. "신호등이 빨간색이면 멈춘다", "보행자가 횡단보도에 있으면 양보한다" 같은 규칙을 사람이 직접 코딩했다. 하지만 현실 도로에서 마주치는 상황은 무한에 가깝다. 비가 오는 밤에 공사 중인 도로를 지나가는데 갑자기 고양이가 뛰어든다면? 전통적 방식으론 모든 경우의 수를 대비할 수 없었다. 반면 통합 AI 시스템을 사용하는 차량은 카메라로 본 장면을 이해하고, 과거 학습한 수백만 건의 주행 데이터를 참조해, 가장 안전한 행동을 스스로 결정한다.
흥미로운 점은 인간형 로봇과 자율주행차가 기술적으로 매우 유사한 기반 위에 서 있다는 사실이다. 둘 다 주변환경을 입체적으로 파악해야 하므로 일반 카메라, 레이저 거리측정기, 전파탐지기 등 여러 센서를 동시에 활용한다. 각 센서가 보내는 서로 다른 형식의 데이터를 실시간으로 합쳐 하나의 3차원 지도를 만들어내는 기술도 공유한다. 또한 이 모든 정보를 순식간에 분석해 다음 행동을 결정하려면 강력한 컴퓨팅 성능이 현장에서 바로 제공되어야 한다. 클라우드 서버에 데이터를 보내 처리하기엔 시간이 너무 오래 걸리기 때문이다.

소프트웨어 측면에서는 AI 학습에 필요한 막대한 양의 데이터를 확보하는 것이 공통 과제다. 자율주행차는 수백만 킬로미터를 실제로 주행하며 데이터를 모으지만, 로봇은 그만큼 다양한 환경에서 작업한 경험이 부족하다. 이 문제를 해결하기 위해 가상세계 시뮬레이션 기술이 급속도로 발전하고 있다. 컴퓨터 그래픽으로 만든 가상공간에서 로봇을 수천 번 훈련시키면, 실제 세계에서도 비슷하게 작동할 수 있도록 학습시킬 수 있다. 이런 가상훈련장은 위험한 상황도 안전하게 재현할 수 있어, 로봇이 불에 가까이 가거나 높은 곳에서 떨어지는 상황도 시뮬레이션할 수 있다.
하지만 두 분야가 직면한 도전과제는 다소 다르다. 자율주행차는 결국 바퀴 네 개로 평평한 도로를 달리는 기계다. 앞뒤로 가속하고 좌우로 방향을 틀면 되므로 움직임의 자유도는 제한적이다. 반면 인간형 로봇은 두 다리로 균형을 잡으며 걸어야 하고, 두 팔과 손가락으로 섬세하게 물체를 조작해야 한다. 관절이 수십 개에 달하고, 각 관절의 힘과 각도를 정밀하게 제어해야 하므로 기술적 복잡도가 훨씬 높다. 게다가 촉각, 압력, 온도 같은 추가 센서도 필요하다. 달걀을 집을 때와 망치를 쥘 때 필요한 힘이 다르기 때문이다. 이처럼 로봇이 해결해야 할 문제가 더 복잡하기에, 가상 시뮬레이션에 대한 의존도도 자연스럽게 높아진다.
물리적 지능을 가진 기계들의 상용화는 생태계 전체에 선순환을 만들어내고 있다. 작년을 기점으로 고급 보조주행 기능이 일반 승용차에 본격적으로 탑재되기 시작했다. 운전자가 핸들을 잡고 있어야 하지만 고속도로에서는 차가 알아서 차선을 유지하고 앞차와 거리를 조절한다. 이런 기능이 대중화되면서 실제 도로에서 수집되는 주행 데이터가 폭발적으로 증가했고, 이 데이터는 다시 AI 모델을 개선하는 데 쓰인다.
로봇 분야도 올해 중요한 전환점을 맞았다. 여러 제조사들이 단순히 프로토타입을 공개하는 수준을 넘어, 실제 작업현장에 투입 가능한 로봇을 선보였다. 이들 로봇은 사전에 프로그래밍된 루틴만 따르는 것이 아니라, 현장 상황을 보고 스스로 판단하며 복잡한 업무를 높은 수준으로 수행한다. 시장조사 전문기관들은 이런 흐름이 지속되면서 2030년쯤에는 전세계적으로 인간형 로봇이 연간 20만 대 이상 출하될 것으로 내다보고 있다. 산업용 활용처가 확대되고, 제조단가가 떨어지고, AI 성능이 계속 향상되면 이 숫자는 더 빠르게 증가할 수 있다.
상용화가 중요한 이유는 단순히 제품이 시장에 나온다는 것 이상의 의미를 갖는다. 물리적 지능 기술을 발전시키려면 천문학적인 연구개발 투자가 필요하다. 슈퍼컴퓨터로 AI를 학습시키는 비용, 정밀 센서와 고성능 프로세서 개발 비용, 수많은 엔지니어와 연구자의 인건비가 모두 여기 포함된다. 이런 막대한 비용을 감당하려면 실제로 제품을 판매해 수익을 창출해야 한다. 시장에서 성공한 기업은 더 많은 자금을 연구에 재투자할 수 있고, 뛰어난 인재들을 영입할 수 있으며, 대량생산을 통해 부품 가격을 낮출 수 있다. 이렇게 벌어들인 수익이 다시 기술 혁신으로 이어지는 선순환 구조가 만들어지면, 물리적 지능 생태계 전체가 더욱 탄탄해지고 우리는 더 지능적이고 자동화된 미래로 한걸음씩 나아가게 된다.
결국 2025년은 AI가 화면 밖으로 걸어나와 우리 곁에서 함께 일하기 시작한 원년으로 기억될 것이다. 기계가 보고, 생각하고, 행동하는 능력을 갖추면서, 공장과 물류창고는 물론 우리 집 거실과 도로 위에서도 자율적인 기계들을 만나는 시대가 열렸다.
