실리콘밸리, AI 에이전트 훈련 ‘환경’에 투자 경쟁

Reinforcement learning (RL) environments for training AI agents are emerging as a next-generation core technology in Silicon Valley. While current agents released by OpenAI and Perplexity still show clear limitations, the industry is betting on simulated training grounds capable of handling complex tasks as a new growth driver. An RL environment is essentially a training ground where AI mimics real software use to perform tasks, offering more complexity and stronger learning effects than static datasets. Google DeepMind’s AlphaGo and OpenAI’s early RL projects are cited as precedents. Recently, RL environments have evolved to handle practical tasks, such as using a simulated browser to make an online purchase. Investment momentum is strong. Startups like Mechanize and Prime Intellect are entering the market to compete for leadership, while traditional data-labeling companies such as Surge and Mercor are shifting their strategies from static datasets toward simulation-focused approaches. Anthropic is reportedly considering more than $1 billion in investment in RL environments by next year. Still, questions remain over scalability. Experts warn that RL environments are vulnerable to structural problems such as “reward hacking,” and some major labs predict it will be difficult to achieve quick results. Even so, Silicon Valley is rallying around the idea that RL environments could be the key to maintaining AI’s next wave of competitive advantage, fueling further investment.

실리콘밸리에서 AI 에이전트 훈련을 위한 강화학습(RL) 환경이 차세대 핵심 기술로 떠오르고 있다. 오픈AI와 퍼플렉시티 등에서 내놓은 에이전트들이 아직 한계가 뚜렷한 가운데, 산업 전반이 복잡한 작업을 시뮬레이션할 수 있는 훈련장을 새로운 성장 동력으로 점찍은 것이다. RL 환경은 AI가 실제 소프트웨어 사용 과정을 흉내 내며 과제를 수행하는 훈련장으로, 단순 데이터셋보다 복잡하고 강력한 학습 효과를 제공한다. 구글 딥마인드의 알파고나 오픈AI의 초기 RL 프로젝트가 그 전례로 꼽힌다. 최근에는 브라우저 시뮬레이션을 통해 온라인 쇼핑을 수행하는 등 실용적 과제를 다루는 방식으로 발전하고 있다. 투자 열기도 뜨겁다. Mechanize, Prime Intellect 같은 신생 기업들이 잇따라 등장하면서 시장 주도권 경쟁에 뛰어들고 있으며, 전통적인 데이터 라벨링 기업인 Surge와 Mercor도 정적 데이터셋에서 시뮬레이션 중심으로 전략을 전환하고 있다. Anthropic은 내년까지 10억 달러 이상을 투입하는 방안도 검토 중이다. 다만 확장성에 대한 의문도 여전하다. 전문가들은 RL 환경이 ‘보상 해킹’ 같은 구조적 문제에 취약하다고 지적하며, 일부 대형 연구소들도 단기간 내 성과를 내기 어렵다는 전망을 내놓고 있다. 그럼에도 실리콘밸리는 RL 환경이 차세대 AI 경쟁력의 핵심이라는 데 의견을 모으며 투자를 이어가고 있다.

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

“몸값 3조 육박, K-엔비디아 떴다”… 리벨리온, 4억 달러 유치하며 미국 정조준

국내 AI 반도체 스타트업 리벨리온이 4억 달러(약 6,000억 원) 규모의 대규모 투자 유치에 성공하며 글로벌 시장 진출을 위한 ‘실탄’을 확보했다.

블루스카이 AI 도입에 유저 12만 명 ‘집단 차단’

탈(脫)중앙화 소셜미디어 블루스카이가 선보인 인공지능(AI) 비서 ‘아티(Attie)’가 출시와 동시에 사용자들의 거센 역풍을 맞고 있다.

"미국인 80% AI 우려, Z세대 가장 비관적"...미국 설문조사 결과

퀴니피액 대학 여론조사에서 미국인의 AI 활용률은 높아졌지만 신뢰도는 21%에 그쳤고, 70%는 AI가 일자리를 줄일 것으로 우려했다. Z세대의 비관론이 가장 강했다.

코파일럿 코워크, MS 프런티어 프로그램 통해 첫 공개…앤트 로픽 기술 탑재

마이크로소프트가 앤스로픽과 협력해 개발한 AI 업무 자동화 기능 '코파일럿 코워크'를 프런티어 조기 체험 프로그램으로 공개했다. 사용자가 목표를 설명하면 AI가 계획을 세우고 마이크로소프트 365 전반에서 작업을 직접 수행한다.