실리콘밸리, AI 에이전트 훈련 ‘환경’에 투자 경쟁

Reinforcement learning (RL) environments for training AI agents are emerging as a next-generation core technology in Silicon Valley. While current agents released by OpenAI and Perplexity still show clear limitations, the industry is betting on simulated training grounds capable of handling complex tasks as a new growth driver. An RL environment is essentially a training ground where AI mimics real software use to perform tasks, offering more complexity and stronger learning effects than static datasets. Google DeepMind’s AlphaGo and OpenAI’s early RL projects are cited as precedents. Recently, RL environments have evolved to handle practical tasks, such as using a simulated browser to make an online purchase. Investment momentum is strong. Startups like Mechanize and Prime Intellect are entering the market to compete for leadership, while traditional data-labeling companies such as Surge and Mercor are shifting their strategies from static datasets toward simulation-focused approaches. Anthropic is reportedly considering more than $1 billion in investment in RL environments by next year. Still, questions remain over scalability. Experts warn that RL environments are vulnerable to structural problems such as “reward hacking,” and some major labs predict it will be difficult to achieve quick results. Even so, Silicon Valley is rallying around the idea that RL environments could be the key to maintaining AI’s next wave of competitive advantage, fueling further investment.

실리콘밸리에서 AI 에이전트 훈련을 위한 강화학습(RL) 환경이 차세대 핵심 기술로 떠오르고 있다. 오픈AI와 퍼플렉시티 등에서 내놓은 에이전트들이 아직 한계가 뚜렷한 가운데, 산업 전반이 복잡한 작업을 시뮬레이션할 수 있는 훈련장을 새로운 성장 동력으로 점찍은 것이다. RL 환경은 AI가 실제 소프트웨어 사용 과정을 흉내 내며 과제를 수행하는 훈련장으로, 단순 데이터셋보다 복잡하고 강력한 학습 효과를 제공한다. 구글 딥마인드의 알파고나 오픈AI의 초기 RL 프로젝트가 그 전례로 꼽힌다. 최근에는 브라우저 시뮬레이션을 통해 온라인 쇼핑을 수행하는 등 실용적 과제를 다루는 방식으로 발전하고 있다. 투자 열기도 뜨겁다. Mechanize, Prime Intellect 같은 신생 기업들이 잇따라 등장하면서 시장 주도권 경쟁에 뛰어들고 있으며, 전통적인 데이터 라벨링 기업인 Surge와 Mercor도 정적 데이터셋에서 시뮬레이션 중심으로 전략을 전환하고 있다. Anthropic은 내년까지 10억 달러 이상을 투입하는 방안도 검토 중이다. 다만 확장성에 대한 의문도 여전하다. 전문가들은 RL 환경이 ‘보상 해킹’ 같은 구조적 문제에 취약하다고 지적하며, 일부 대형 연구소들도 단기간 내 성과를 내기 어렵다는 전망을 내놓고 있다. 그럼에도 실리콘밸리는 RL 환경이 차세대 AI 경쟁력의 핵심이라는 데 의견을 모으며 투자를 이어가고 있다.

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

메타, 직원 8,000명 해고…역대 최고 실적에도 AI 투자 위해 감원

메타가 5월 20일부터 전 직원의 10%인 8,000명을 감원한다. 역대 최고 분기 실적에도 AI 인프라 투자를 위한 결정으로, 직원 사기 급락과 내부 반발이 이어지고 있다.

탠스택 오픈소스 공급망 공격, 오픈AI까지 피해..."사용자 데이터는 안전"

오픈소스 라이브러리 탠스택을 겨냥한 공급망 공격으로 오픈AI 직원 기기 2대가 침해됐다. 사용자 데이터와 핵심 시스템은 안전하나 일부 소스코드가 탈취됐으며, 맥OS 앱 업데이트가 필요하다.

포드, 에너지 저장 사업 진출 선언...AI 데이터센터 특수 전환 기대감

포드가 에너지 저장 사업 진출을 선언한 후 이틀간 주가 21% 급등. 약 2조 8,960억원(20억 달러)을 투자해 켄터키 공장을 전환하고, 2027년 납품을 목표로 한다. 모건스탠리는 사업가치 약 100억 달러를 전망했다.

인텔, 애플 칩 시험 생산 착수…2027년 양산 목표

인텔이 애플 칩 위탁 생산 테스트를 시작했다. 밍치 궈 분석가에 따르면 2027년 양산을 목표로 18A-P 공정을 활용하며, 물량의 80%는 아이폰용이다. TSMC는 여전히 90% 이상 공급을 담당한다.