Polar:英伟达开源的AI智能体强化学习训练框架
一、Polar是什么?
Polar 是一个面向真实世界智能体工具箱(Harness)的强化学习推出(rollout)框架。通俗来说,它是一个“中间件”,让开发者不需要修改现有智能体评估框架(例如SWE‑bench、代码修复评估等)的代码,就能直接将这些框架变成可供强化学习训练使用的“环境”。
Polar由NVIDIA NeMo团队开发,目前处于stable版本,已经在GitHub上获得470个Star和47个Fork,主要语言为Python(89.4%)、TypeScript(7.2%)和Shell(3.3%)。
核心特点
Harness as Environment(工具箱即环境):无需改造现有框架,通过代理(Proxy)直接监听并交互。
智能推出管线(Smart Rollout Pipeline):通过并行推出分阶段执行(Rollout Staging)和运行时池化(Runtime Pooling),节省GPU小时。
推出即服务(Rollout as a Service):通过HTTP接口暴露服务,能与任何训练框架(如NeMo RL、VERL、Slime等)解耦集成。
二、功能特色
1. 零侵入集成
开发者无需对现有智能体评估框架进行任何代码修改,Polar通过一个代理(Proxy) 监听智能体执行进程和推理服务器之间的所有交互,自动完成轨迹(trajectory)收集和环境定义。
2. 高效并行推出
传统RL推出流程往往是串行执行,导致GPU空闲等待。Polar引入:
并行推出分阶段执行(Rollout Staging):将推理、执行、评估等阶段分离,并行处理。
运行时池化(Runtime Pooling):复用运行时环境,避免重复创建。
根据官方技术报告,可显著节省GPU小时,提升训练吞吐量。
3. 服务器模式架构
Polar采用解耦的服务器模式,提供HTTP接口。这意味着:
任何训练框架(如Slime、NeMo RL、VERL)都可以通过简单的API调用与Polar交互。
易于水平扩展:一台中央编排器(Rollout Server)管理多个分布式网关节点(Gateway Nodes)。
4. 多推理后端支持
Polar支持两种主流的推理服务器:
vLLM:高性能LLM推理引擎,支持PagedAttention等优化。
SGLang:基于结构化生成语言(SGL)的高效推理框架。
用户可根据训练框架的兼容性选择其一,两者无需同时安装。
5. 可观测性仪表盘(Dashboard)
Polar提供基于Web的前端仪表盘(build后启用),可用于实时监控健康状态、拓扑信息、任务执行进度等。
6. 丰富的内置工具箱
通用Shell工具箱(Generic Shell Harness)
SWE‑bench官方评估工具箱(可选安装)
预设快捷方式(Harness Shortcuts),方便快速启用

三、技术细节
系统架构
| 组件 | 角色 | 默认端口 |
|---|---|---|
| Rollout Server | 中央编排器,管理任务调度与分发 | 8080 |
| Gateway Nodes | 分布式工作节点,异步执行智能体、构建轨迹、评估 | 8100+ |
| Proxy | 位于智能体进程与推理服务器之间,监听交互 | 内部端口 |
| Dashboard | 可观测性前端UI(可选) | 8090 |
工作流程
任务提交:客户端通过
polar submit提交任务(JSON或YAML格式)。中央编排:Rollout Server解析任务,将请求分发到空闲的Gateway Node。
并行执行:Gateway Node异步准备运行时环境,执行智能体逻辑,通过Proxy与推理服务器交互。
轨迹构建:Proxy自动记录智能体的所有推理和交互步骤,生成训练所需的轨迹数据。
评估:内置或自定义评估器对轨迹进行打分,返回给训练框架。
核心配置
所有CLI命令共享同一个配置文件topology.yaml,用于定义:
推理服务器地址
网关节点列表
工具箱选择与参数
评估策略
执行超时等
安装要求
Python 3.13(推荐使用
uv)推理后端(vLLM或SGLang,二选一)
训练框架(可选,如Slime、NeMo RL)
可选:SWE‑bench评估工具箱
四、应用场景
1. 代码修复/软件开发
典型场景:使用SWE‑bench数据集,评估LLM智能体修复真实开源项目bug的能力。
Polar优势:无需修改SWE‑bench代码,直接将其转化为RL训练环境,支持大规模并行评估。
2. 视觉问答(VLM)
典型场景:基于视觉大模型(VLM)的多轮对话问答。
Polar优势:支持VLM智能体的轨迹收集与评估,如“Count Stars”示例。
3. 通用多轮交互任务
典型场景:对话系统、客户服务、任务规划等。
Polar优势:通过Shell工具箱实现任意命令驱动的智能体,支持自定义构建器和评估器。
4. RL训练与研究
典型场景:GRPO(Group Relative Policy Optimization)、PPO等强化学习算法训练。
Polar优势:提供与Slime训练框架的集成示例(SWE‑Gym Slime GRPO),支持异步训练。
五、使用方法
安装步骤
创建虚拟环境
uv venv --python 3.13 source .venv/bin/activate
安装Polar
uv pip install -e ".[swebench]" # 可选:安装SWE-bench支持
安装推理后端(二选一)
# vLLMuv pip install vllm --torch-backend=auto # SGLanguv pip install --prerelease=allow sglang==0.5.10 torch==2.9.1+cu128 bash scripts/patch/patch_sglang.sh
构建Dashboard UI(可选)
cd web && npm install && npm run build
启动服务
使用同一个topology.yaml配置文件,按顺序执行:
启动中央编排器
polar serve_rollout -c topology.yaml
启动网关节点(可启动多个)
polar serve_gateway -c topology.yaml --node-id node1
启动仪表盘(可选)
polar dashboard -c topology.yaml --port 8090
提交任务
创建任务文件(JSON或YAML格式)
使用CLI提交
polar submit task.json -c topology.yaml
监控状态
polar status -c topology.yaml

六、竞品对比
| 特性 | Polar (NVIDIA) | Ray RLlib | RL4LMs |
|---|---|---|---|
| 实时场景 | 2026年 | 2018年 | 2023年 |
| 核心定位 | RL推出框架,面向真实世界工具箱 | 通用分布式RL库 | 语言模型RL训练专用 |
| 工具箱集成方式 | 零侵入,代理监听 | 需实现自定义环境接口 | 需集成Hugging Face pac的 |
| 并行推出支持 | 内置智能管线 | 内置Ray分布式执行 | 有限 |
| 推理后端兼容 | vLLM, SGLang | 无内置 | Hugging Face |
| 训练框架兼容 | 无依赖,支持Slime、NeMo RL等 | 自带训练算法 | 自带训练算法 |
| 安装复杂度 | 中等,依赖推理后端 | 高,依赖Ray集群 | 低,依赖Hugging Face生态 |
| 官方示例 | Calculator, SWE-bench, VLM | Gym, Atari | IMDB, CommonGen |
说明:
Ray RLlib:通用分布式强化学习库,但需要开发者自行实现环境接口,对LLM多轮交互场景支持较弱。
RL4LMs:针对语言模型的RL训练库,但主要局限于Hugging Face模型和标准NLP任务,对真实世界工具箱(如代码修复)集成困难。
Polar:专注于“工具箱即环境”理念,提供零侵入集成,特别适合真实世界多轮交互任务的RL训练。
七、常见问题解答
Q1: Polar是否支持我自己的自定义工具或环境?
是的。Polar通过代理(Proxy)机制,可以监听任何通过Shell命令驱动的智能体进程。您可以使用通用Shell工具箱,或参考构建器指南注册自己的工具箱。
Q2: Polar是否需要依赖特定的训练框架,如NeMo?
不需要。Polar的设计是训练框架无关的(trainer agnostic)。它通过HTTP接口暴露推出服务,任何训练框架都可以通过简单的API调用集成。目前官方提供与Slime框架的集成示例。
Q3: 为什么需要同时安装推理后端(vLLM或SGLang)?
Polar负责推出逻辑,但智能体在推理时需要调用大语言模型生成响应。推理后端提供高效的模型推理能力。用户可根据训练框架的兼容性选择其一。
Q4: 安装时提示依赖冲突怎么办?
官方强烈建议不要在同一环境中同时安装vLLM和SGLang。如果遇到依赖冲突,请单独创建虚拟环境,分别用于Polar服务器和推理后端。
Q5: Polar支持多GPU训练吗?
支持。通过配置多个Gateway Node节点,每个节点可以绑定不同的GPU资源,实现分布式并行推出。中央编排器会自动负载均衡。
Q6: 如何添加自定义评估器?
请参考官方文档中的“Builder and Evaluator Guides”部分。您需要实现注册的策略,并在topology.yaml中指定评估器类型和参数。
Q7: Polar目前支持哪些训练算法?
Polar本身不实现训练算法,但提供了与Slime训练框架的集成示例,支持GRPO等算法。此外,由于是HTTP接口设计,理论上任何训练框架都可以集成。
Q8: Polar是否支持视觉大模型(VLM)?
是的。官方提供了“Count Stars”示例,用于VLM的最小测试。未来路线图还包括CUA(VLM/VLA)支持。
Q9: 安装Dashboard UI时需要Node.js吗?
是的。Dashboard前端使用TypeScript构建,需要先安装Node.js和npm,然后进入web目录执行npm install && npm run build。
Q10: Polar的许可证是什么?
Polar使用Apache-2.0许可证,允许商业使用、修改和分发。
八、相关链接
GitHub仓库:https://github.com/NVIDIA-NeMo/ProRL-Agent-Server
Paper(Polar):arXiv:2605.24220
Paper(ProRL Agent):arXiv:2603.18815
九、总结
Polar是由NVIDIA NeMo团队开发的强化学习推出框架,核心优势在于“工具箱即环境”的设计理念,让开发者无需修改现有智能体评估框架代码,即可将其转化为RL训练环境。通过智能推出管线、并行推出分阶段执行和运行时池化技术,Polar显著节省GPU资源,支持高效、可扩展的异步RL训练。采用服务器模式架构,Polar与任何训练框架解耦,支持vLLM和SGLang双推理后端,并提供丰富的内置工具箱(如SWE-bench、Shell)和可观测性仪表盘。截至2026年,Polar在GitHub上已获得470个Star,提供Calculator、Count Stars、SWE-bench Verified等开箱即用的示例,适用于代码修复、视觉问答、多轮对话等真实世界智能体训练场景,是强化学习工程师和AI研究员进行真实环境RL训练的理想工具。
版权及免责申明:本文由@AI铺子原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/polar.html

