엔비디아, 에이전트 RL 훈련 프레임워크 'Polar' 공개
엔비디아가 기존 에이전트 구동부 수정 없이도 강화학습 훈련을 가능하게 하는 롤아웃 프레임워크 'Polar'를 발표했습니다. 이 프레임워크는 API 프록시를 통해 토큰 단위의 상호작용을 캡처하여 완벽한 훈련용 궤적을 재구성하는 것이 특징입니다. 실제 SWE-Bench 테스트에서 Codex, Claude Code 등 다양한 환경의 코딩 성능을 크게 향상시키며 그 효용성을 입증했습니다.
엔비디아 연구진이 에이전트의 구동부(harness)를 수정하지 않고도 강화학습을 통해 언어 에이전트를 훈련할 수 있는 롤아웃 프레임워크(rollout framework), 'Polar'를 소개했습니다.
Polar는 구동부와 인퍼런스 서버(inference server) 사이에 모델 API 프록시를 배치하여 토큰 수준의 상호작용을 캡처하고 훈련에 바로 사용할 수 있는 궤적(trajectory)을 재구성합니다. Qwen3.5-4B 베이스 모델에 GRPO(Group Relative Policy Optimization)를 적용한 결과, Polar는 Codex 구동부 환경에서 SWE-Bench Verified pass@1 점수를 22.6포인트 향상시켰으며, Claude Code 환경에서는 4.8포인트, Pi 환경에서는 6.2포인트 각각 개선했습니다.
이 프레임워크는 NeMo Gym 환경으로 등록되어 있으며, ProRL Agent Server 리포지토리를 통해 공개되었습니다.
엔비디아가 GRPO 훈련을 위한 토큰 단위 정확성을 보장하는 롤아웃 프레임워크인 Polar를 Codex, Claude Code, Qwen Code에 적용하여 공개했다는 소식은 MarkTechPost에 처음 게재되었습니다.