Authors
Junkeun Yi*,1 Damon Mosk-Aoyama*,1 Baihe Huang*,2 Ritu Gala1 Charles Wang1 Sugam
Dipak Devare1 Khushi Bhardwaj1 Abhibha Gupta1 Oleksii Kuchaiev1 Jiantao Jiao**,1,2
Jian Zhang**,1 Venkat Srinivasan**,†,1
1NVIDIA 2UC Berkeley
*Equal Contribution**Equal Advising †Corresponding Author: venkats@nvidia.com
Summary
피벗RL(PivotRL)의 핵심 아이디어는 AI 에이전트를 학습시킬 때 전체 과정을 처음부터 끝까지 시뮬레이션하는 막대한 연산을 피하고, 결과가 성공과 실패로 엇갈려 학습 가치가 매우 높은 핵심 중간 단계인 '피벗(Pivot)'만을 선별하여 짧게 학습시키는 것입니다. 여기에 단일 시연 정답과 텍스트가 완벽하게 똑같지 않더라도 기능적으로 동등하고 올바른 행동이라면 정답으로 인정해 주는 유연한 검증기 기반 보상 체계를 결합했습니다. 결과적으로 피벗RL은 기존 지도 미세 조정(SFT)의 장점인 낮은 연산 비용을 유지하면서도, 단대단 강화학습(E2E RL)이 가진 높은 작업 정확도 및 미학습 영역(OOD)에 대한 뛰어난 일반화 성능을 동시에 달성한 고효율 사후 학습 프레임워크입니다.
Abstract
PivotRL relies on two key mechanisms: first, it executes local, on-policy rollouts and filters for pivots: informative intermediate turns where sampled actions exhibit high variance in outcomes; second, it utilizes rewards for functional-equivalent actions rather than demanding strict string matching with the SFT data demonstration.
We theoretically show that these mechanisms incentivize strong learning signals with high natural gradient norm, while maximally preserving policy probability ordering on actions unrelated to training tasks. In comparison to standard SFT on identical data, we demonstrate that PivotRL achieves +4.17% higher in-domain accuracy on average across four agentic domains, and +10.04% higher OOD accuracy in non-agentic tasks. Notably, on agentic coding tasks, PivotRL achieves competitive accuracy with E2E RL with 4×fewer rollout turns.
Introduction
- Can we combine the data efficiency of SFT with the generalization capabilities of E2E RL, achieving both in-domain accuracy and OOD retention without incurring full-trajectory rollouts?
- First, we prove that the Fisher norm of the natural gradient of the statewise reward objective scales with the reward standard deviation. Consequently, the GRPO update along the KL path scales directly with this variance, validating our strategy of filtering for mixed-outcome pivots to maximize the local in-domain learning signals
- 모델이 학습할 때 얻는 유의미한 정보량(학습 신호의 강도)은, 모델이 내린 행동 결과(성공/실패)가 얼마나 다양하게 섞여 있는지(보상의 분산)에 정비례한다
- Second, we show that functional reward-based RL shifts probability mass toward actions that are functionally equivalent to the expert demonstration, while preserving the conditional distributions on all other actions. This maintains the reference policy’s relative ordering of task-unrelated actions, thereby mitigating out-of-domain (OOD) degradation
- **"기능적 보상(Functional reward)을 사용하는 PivotRL이 어떻게 새로운 지식을 배우면서도 기존의 범용 능력(OOD 성능)을 잃어버리지 않는지"**를 수학적으로 증명한 내용
PivotRL
- PivotRL은 naive local RL을 두 가지 방식으로 수정한다.
- rollout budget을 informative state에만 사용
- exact-match 대신 verifier 기반 local reward 사용
- it filters extracted turns so that online rollout budget is spent on informative states, and it replaces exact-match local credit with verifier-based reward.
Method
trajectory에서 모든 assistant turn 추출함
PivotRL은 다음 3단계로 구성된다.
- informative turn만 offline filtering
- 선택된 turn에서 local rollout
- verifier-based GRPO optimization
Experiments
PivotRL은 동일 데이터 SFT보다 더 큰 in-domain 성능 향상을 달성하면서, OOD 성능 저하를 거의 제거한다. 이는 4.1절에서 보인다. SWE-Bench에서는 End-to-End RL이 표준 학습 방식인데, PivotRL은 multi-turn 환경 rollout 없이도 유사한 정확도를 달성한다. 이는 4.2절에서 보인다. Ablation 실험은 pivot filtering과 functional reward가 모두 전체 성능 향상에 필요함을 확인한다. 이는 4.3절에서 보인다.
- 실험 설정
- 저자들은 네 가지 agentic domain을 각각 따로 학습한다.
- conversational tool use
- software engineering
- terminal control
- web browsing
각 모델은 대응되는 benchmark에서 평가된다.
- τ²-Bench
- SWE-Bench Verified
- Terminal-Bench
- BrowseComp
모든 실험은 Qwen3-30B-A3B-Thinking-2507, 이하 “Base”,에서 시작한다. 최적화에는 Nemo-RL, 환경 rollout에는 Nemo-Gym을 사용한다.
모든 SFT–PivotRL 비교에서 base model, prompt, expert trajectory는 동일하다. Domain별 데이터 구성, verifier 설계, hyperparameter는 Appendix A.2에 제시된다.

Authors
Junkeun Yi*,1 Damon Mosk-Aoyama*,1 Baihe Huang*,2 Ritu Gala1 Charles Wang1 Sugam
Dipak Devare1 Khushi Bhardwaj1 Abhibha Gupta1 Oleksii Kuchaiev1 Jiantao Jiao**,1,2
Jian Zhang**,1 Venkat Srinivasan**,†,1
1NVIDIA 2UC Berkeley
*Equal Contribution**Equal Advising †Corresponding Author: venkats@nvidia.com
Summary
피벗RL(PivotRL)의 핵심 아이디어는 AI 에이전트를 학습시킬 때 전체 과정을 처음부터 끝까지 시뮬레이션하는 막대한 연산을 피하고, 결과가 성공과 실패로 엇갈려 학습 가치가 매우 높은 핵심 중간 단계인 '피벗(Pivot)'만을 선별하여 짧게 학습시키는 것입니다. 여기에 단일 시연 정답과 텍스트가 완벽하게 똑같지 않더라도 기능적으로 동등하고 올바른 행동이라면 정답으로 인정해 주는 유연한 검증기 기반 보상 체계를 결합했습니다. 결과적으로 피벗RL은 기존 지도 미세 조정(SFT)의 장점인 낮은 연산 비용을 유지하면서도, 단대단 강화학습(E2E RL)이 가진 높은 작업 정확도 및 미학습 영역(OOD)에 대한 뛰어난 일반화 성능을 동시에 달성한 고효율 사후 학습 프레임워크입니다.
Abstract
PivotRL relies on two key mechanisms: first, it executes local, on-policy rollouts and filters for pivots: informative intermediate turns where sampled actions exhibit high variance in outcomes; second, it utilizes rewards for functional-equivalent actions rather than demanding strict string matching with the SFT data demonstration.
We theoretically show that these mechanisms incentivize strong learning signals with high natural gradient norm, while maximally preserving policy probability ordering on actions unrelated to training tasks. In comparison to standard SFT on identical data, we demonstrate that PivotRL achieves +4.17% higher in-domain accuracy on average across four agentic domains, and +10.04% higher OOD accuracy in non-agentic tasks. Notably, on agentic coding tasks, PivotRL achieves competitive accuracy with E2E RL with 4×fewer rollout turns.
Introduction
PivotRL
Method
trajectory에서 모든 assistant turn 추출함
PivotRL은 다음 3단계로 구성된다.
Experiments
PivotRL은 동일 데이터 SFT보다 더 큰 in-domain 성능 향상을 달성하면서, OOD 성능 저하를 거의 제거한다. 이는 4.1절에서 보인다. SWE-Bench에서는 End-to-End RL이 표준 학습 방식인데, PivotRL은 multi-turn 환경 rollout 없이도 유사한 정확도를 달성한다. 이는 4.2절에서 보인다. Ablation 실험은 pivot filtering과 functional reward가 모두 전체 성능 향상에 필요함을 확인한다. 이는 4.3절에서 보인다.
각 모델은 대응되는 benchmark에서 평가된다.
모든 실험은 Qwen3-30B-A3B-Thinking-2507, 이하 “Base”,에서 시작한다. 최적화에는 Nemo-RL, 환경 rollout에는 Nemo-Gym을 사용한다.
모든 SFT–PivotRL 비교에서 base model, prompt, expert trajectory는 동일하다. Domain별 데이터 구성, verifier 설계, hyperparameter는 Appendix A.2에 제시된다.