실리콘밸리, AI 에이전트 훈련 ‘환경’에 투자 경쟁

Reinforcement learning (RL) environments for training AI agents are emerging as a next-generation core technology in Silicon Valley. While current agents released by OpenAI and Perplexity still show clear limitations, the industry is betting on simulated training grounds capable of handling complex tasks as a new growth driver. An RL environment is essentially a training ground where AI mimics real software use to perform tasks, offering more complexity and stronger learning effects than static datasets. Google DeepMind’s AlphaGo and OpenAI’s early RL projects are cited as precedents. Recently, RL environments have evolved to handle practical tasks, such as using a simulated browser to make an online purchase. Investment momentum is strong. Startups like Mechanize and Prime Intellect are entering the market to compete for leadership, while traditional data-labeling companies such as Surge and Mercor are shifting their strategies from static datasets toward simulation-focused approaches. Anthropic is reportedly considering more than $1 billion in investment in RL environments by next year. Still, questions remain over scalability. Experts warn that RL environments are vulnerable to structural problems such as “reward hacking,” and some major labs predict it will be difficult to achieve quick results. Even so, Silicon Valley is rallying around the idea that RL environments could be the key to maintaining AI’s next wave of competitive advantage, fueling further investment.

실리콘밸리에서 AI 에이전트 훈련을 위한 강화학습(RL) 환경이 차세대 핵심 기술로 떠오르고 있다. 오픈AI와 퍼플렉시티 등에서 내놓은 에이전트들이 아직 한계가 뚜렷한 가운데, 산업 전반이 복잡한 작업을 시뮬레이션할 수 있는 훈련장을 새로운 성장 동력으로 점찍은 것이다. RL 환경은 AI가 실제 소프트웨어 사용 과정을 흉내 내며 과제를 수행하는 훈련장으로, 단순 데이터셋보다 복잡하고 강력한 학습 효과를 제공한다. 구글 딥마인드의 알파고나 오픈AI의 초기 RL 프로젝트가 그 전례로 꼽힌다. 최근에는 브라우저 시뮬레이션을 통해 온라인 쇼핑을 수행하는 등 실용적 과제를 다루는 방식으로 발전하고 있다. 투자 열기도 뜨겁다. Mechanize, Prime Intellect 같은 신생 기업들이 잇따라 등장하면서 시장 주도권 경쟁에 뛰어들고 있으며, 전통적인 데이터 라벨링 기업인 Surge와 Mercor도 정적 데이터셋에서 시뮬레이션 중심으로 전략을 전환하고 있다. Anthropic은 내년까지 10억 달러 이상을 투입하는 방안도 검토 중이다. 다만 확장성에 대한 의문도 여전하다. 전문가들은 RL 환경이 ‘보상 해킹’ 같은 구조적 문제에 취약하다고 지적하며, 일부 대형 연구소들도 단기간 내 성과를 내기 어렵다는 전망을 내놓고 있다. 그럼에도 실리콘밸리는 RL 환경이 차세대 AI 경쟁력의 핵심이라는 데 의견을 모으며 투자를 이어가고 있다.

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

“남들 다 포기할 때 거꾸로 간다”… 토요타, 볼보·다임러와 ‘수소 동맹’ 전격 결성

세계 최대 자동차 기업 토요타가 전기차로 쏠린 업계 흐름에 맞서 수소 연료전지 시장에 승부수를 던졌다.

이란, 애플·구글·마이크로소프트 등 미국 기업 18곳 타격 경고

이란 혁명수비대(IRGC)가 애플·구글·마이크로소프트 등 미국 기업 18곳을 중동에서 타격하겠다고 경고했다. 4월 1일 오후 8시(테헤란 기준)를 데드라인으로 제시하며 직원 대피를 촉구했다.

음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

메타가 레이밴(Ray-Ban)의 모회사 에실로룩소티카와 협력해 인공지능(AI) 기능을 대폭 강화한 차세대 스마트 안경 ‘옵틱스(Optics)’ 라인업을 선보였다.

미국서 지메일 주소 바꿀 수 있다...글로벌은 불투명

구글이 지메일 출시 20년 만에 처음으로 이메일 주소 변경 기능을 공식 배포했다. 인도에 먼저 출시된 뒤 미국으로 확대됐으며, 한국 등 다른 국가의 배포 일정은 아직 미정이다.