실리콘밸리, AI 에이전트 훈련용 ‘환경’ 각축전

Silicon Valley is pouring major investments into building “reinforcement learning (RL) environments” to train next-generation AI agents. RL environments are simulated workspaces that mimic real software usage processes, allowing agents to learn multi-step tasks, and are emerging as critical infrastructure for the future of AI development. Established data-labeling firms like Surge, Mercor, and Scale AI have entered the RL environment race, while newer startups such as Mechanize and Prime Intellect are competing to capture market share. Mechanize, in particular, is working with Anthropic and offering high salaries to attract top engineers. RL techniques have already proven successful, as seen in Google DeepMind’s development of AlphaGo. What sets today’s environments apart is their use in training large transformer models designed for general-purpose tasks. While some experts point to challenges such as reward hacking and questions of scalability, RL environments are still seen as a promising breakthrough for advancing AI.

실리콘밸리가 차세대 AI 에이전트 훈련을 위한 ‘강화학습(RL) 환경’ 구축에 대규모 투자를 쏟아붓고 있다. RL 환경은 실제 소프트웨어 사용 과정을 시뮬레이션해 에이전트가 다단계 작업을 학습하도록 설계된 공간으로, 차세대 AI 발전의 핵심 인프라로 떠오르고 있다. 서지(Surge), 메르코르(Mercor), 스케일AI 등 기존 데이터 라벨링 기업들이 RL 환경 구축에 뛰어들었고, 메커나이즈(Mechanize), 프라임 인텔렉트(Prime Intellect) 같은 신생 스타트업도 시장을 선점하기 위해 경쟁 중이다. 특히 메커나이즈는 앤트로픽과 협업하며 고액 연봉을 내세워 엔지니어를 영입하고 있다. 구글 딥마인드가 알파고를 개발할 때 사용한 것처럼 RL 기법은 이미 큰 성과를 낸 바 있다. 하지만 이번 환경은 범용성을 지닌 대형 트랜스포머 모델 훈련에 쓰인다는 점에서 차별화된다. 일부 전문가들은 보상 해킹 등 한계와 확장성 문제를 지적하지만, RL 환경은 여전히 AI 발전의 새로운 돌파구로 기대를 모으고 있다.

버트

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

삼성, 멀미 완화 앱 '히어라피' 출시...이어폰으로 60초 들으면 2시간 효과

삼성이 이어폰으로 멀미를 완화하는 무료 앱 '히어라피'를 출시했다. 100Hz 저음 사인파를 60초간 들으면 최대 2시간 멀미 증상이 억제되며, 갤럭시 버즈4 프로 외 타사 이어폰에서도 사용 가능하다.

“남들 다 포기할 때 거꾸로 간다”… 토요타, 볼보·다임러와 ‘수소 동맹’ 전격 결성

세계 최대 자동차 기업 토요타가 전기차로 쏠린 업계 흐름에 맞서 수소 연료전지 시장에 승부수를 던졌다.

이란, 애플·구글·마이크로소프트 등 미국 기업 18곳 타격 경고

이란 혁명수비대(IRGC)가 애플·구글·마이크로소프트 등 미국 기업 18곳을 중동에서 타격하겠다고 경고했다. 4월 1일 오후 8시(테헤란 기준)를 데드라인으로 제시하며 직원 대피를 촉구했다.

음식 칼로리 계산하고 3개국어 번역까지… 메타, ‘진화한 스마트 안경’ 전격 공개”

메타가 레이밴(Ray-Ban)의 모회사 에실로룩소티카와 협력해 인공지능(AI) 기능을 대폭 강화한 차세대 스마트 안경 ‘옵틱스(Optics)’ 라인업을 선보였다.