Polar:英伟达开源的AI智能体强化学习训练框架

原创 发布日期:
72

一、Polar是什么?

Polar 是一个面向真实世界智能体工具箱(Harness)的强化学习推出(rollout)框架。通俗来说,它是一个“中间件”,让开发者不需要修改现有智能体评估框架(例如SWE‑bench、代码修复评估等)的代码,就能直接将这些框架变成可供强化学习训练使用的“环境”。

Polar由NVIDIA NeMo团队开发,目前处于stable版本,已经在GitHub上获得470个Star47个Fork,主要语言为Python(89.4%)、TypeScript(7.2%)和Shell(3.3%)。

核心特点

  • Harness as Environment(工具箱即环境):无需改造现有框架,通过代理(Proxy)直接监听并交互。

  • 智能推出管线(Smart Rollout Pipeline):通过并行推出分阶段执行(Rollout Staging)和运行时池化(Runtime Pooling),节省GPU小时。

  • 推出即服务(Rollout as a Service):通过HTTP接口暴露服务,能与任何训练框架(如NeMo RL、VERL、Slime等)解耦集成。

二、功能特色

1. 零侵入集成

开发者无需对现有智能体评估框架进行任何代码修改,Polar通过一个代理(Proxy) 监听智能体执行进程和推理服务器之间的所有交互,自动完成轨迹(trajectory)收集和环境定义。

2. 高效并行推出

传统RL推出流程往往是串行执行,导致GPU空闲等待。Polar引入:

  • 并行推出分阶段执行(Rollout Staging):将推理、执行、评估等阶段分离,并行处理。

  • 运行时池化(Runtime Pooling):复用运行时环境,避免重复创建。

根据官方技术报告,可显著节省GPU小时,提升训练吞吐量。

3. 服务器模式架构

Polar采用解耦的服务器模式,提供HTTP接口。这意味着:

  • 任何训练框架(如Slime、NeMo RL、VERL)都可以通过简单的API调用与Polar交互。

  • 易于水平扩展:一台中央编排器(Rollout Server)管理多个分布式网关节点(Gateway Nodes)。

4. 多推理后端支持

Polar支持两种主流的推理服务器:

  • vLLM:高性能LLM推理引擎,支持PagedAttention等优化。

  • SGLang:基于结构化生成语言(SGL)的高效推理框架。

用户可根据训练框架的兼容性选择其一,两者无需同时安装。

5. 可观测性仪表盘(Dashboard)

Polar提供基于Web的前端仪表盘(build后启用),可用于实时监控健康状态、拓扑信息、任务执行进度等。

6. 丰富的内置工具箱

  • 通用Shell工具箱(Generic Shell Harness)

  • SWE‑bench官方评估工具箱(可选安装)

  • 预设快捷方式(Harness Shortcuts),方便快速启用

Polar:英伟达开源的AI智能体强化学习训练框架

三、技术细节

系统架构

组件 角色 默认端口
Rollout Server 中央编排器,管理任务调度与分发 8080
Gateway Nodes 分布式工作节点,异步执行智能体、构建轨迹、评估 8100+
Proxy 位于智能体进程与推理服务器之间,监听交互 内部端口
Dashboard 可观测性前端UI(可选) 8090

工作流程

  1. 任务提交:客户端通过polar submit提交任务(JSON或YAML格式)。

  2. 中央编排:Rollout Server解析任务,将请求分发到空闲的Gateway Node。

  3. 并行执行:Gateway Node异步准备运行时环境,执行智能体逻辑,通过Proxy与推理服务器交互。

  4. 轨迹构建:Proxy自动记录智能体的所有推理和交互步骤,生成训练所需的轨迹数据。

  5. 评估:内置或自定义评估器对轨迹进行打分,返回给训练框架。

核心配置

所有CLI命令共享同一个配置文件topology.yaml,用于定义:

  • 推理服务器地址

  • 网关节点列表

  • 工具箱选择与参数

  • 评估策略

  • 执行超时等

安装要求

  • Python 3.13(推荐使用uv

  • 推理后端(vLLM或SGLang,二选一)

  • 训练框架(可选,如Slime、NeMo RL)

  • 可选:SWE‑bench评估工具箱

四、应用场景

1. 代码修复/软件开发

  • 典型场景:使用SWE‑bench数据集,评估LLM智能体修复真实开源项目bug的能力。

  • Polar优势:无需修改SWE‑bench代码,直接将其转化为RL训练环境,支持大规模并行评估。

2. 视觉问答(VLM)

  • 典型场景:基于视觉大模型(VLM)的多轮对话问答。

  • Polar优势:支持VLM智能体的轨迹收集与评估,如“Count Stars”示例。

3. 通用多轮交互任务

  • 典型场景:对话系统、客户服务、任务规划等。

  • Polar优势:通过Shell工具箱实现任意命令驱动的智能体,支持自定义构建器和评估器。

4. RL训练与研究

  • 典型场景:GRPO(Group Relative Policy Optimization)、PPO等强化学习算法训练。

  • Polar优势:提供与Slime训练框架的集成示例(SWE‑Gym Slime GRPO),支持异步训练。

五、使用方法

安装步骤

  1. 创建虚拟环境

uv venv --python 3.13
source .venv/bin/activate
  1. 安装Polar

uv pip install -e ".[swebench]" # 可选:安装SWE-bench支持
  1. 安装推理后端(二选一)

# vLLMuv 
pip install vllm --torch-backend=auto
# SGLanguv 
pip install --prerelease=allow sglang==0.5.10 torch==2.9.1+cu128
bash scripts/patch/patch_sglang.sh
  1. 构建Dashboard UI(可选)

cd web && npm install && npm run build

启动服务

使用同一个topology.yaml配置文件,按顺序执行:

  1. 启动中央编排器

polar serve_rollout -c topology.yaml
  1. 启动网关节点(可启动多个)

polar serve_gateway -c topology.yaml --node-id node1
  1. 启动仪表盘(可选)

polar dashboard -c topology.yaml --port 8090

提交任务

  1. 创建任务文件(JSON或YAML格式)

  2. 使用CLI提交

polar submit task.json -c topology.yaml
  1. 监控状态

polar status -c topology.yaml

Polar:英伟达开源的AI智能体强化学习训练框架

六、竞品对比

特性 Polar (NVIDIA) Ray RLlib RL4LMs
实时场景 2026年 2018年 2023年
核心定位 RL推出框架,面向真实世界工具箱 通用分布式RL库 语言模型RL训练专用
工具箱集成方式 零侵入,代理监听 需实现自定义环境接口 需集成Hugging Face pac的
并行推出支持 内置智能管线 内置Ray分布式执行 有限
推理后端兼容 vLLM, SGLang 无内置 Hugging Face
训练框架兼容 无依赖,支持Slime、NeMo RL等 自带训练算法 自带训练算法
安装复杂度 中等,依赖推理后端 高,依赖Ray集群 低,依赖Hugging Face生态
官方示例 Calculator, SWE-bench, VLM Gym, Atari IMDB, CommonGen

说明

  • Ray RLlib:通用分布式强化学习库,但需要开发者自行实现环境接口,对LLM多轮交互场景支持较弱。

  • RL4LMs:针对语言模型的RL训练库,但主要局限于Hugging Face模型和标准NLP任务,对真实世界工具箱(如代码修复)集成困难。

  • Polar:专注于“工具箱即环境”理念,提供零侵入集成,特别适合真实世界多轮交互任务的RL训练。

七、常见问题解答

Q1: Polar是否支持我自己的自定义工具或环境?

是的。Polar通过代理(Proxy)机制,可以监听任何通过Shell命令驱动的智能体进程。您可以使用通用Shell工具箱,或参考构建器指南注册自己的工具箱。

Q2: Polar是否需要依赖特定的训练框架,如NeMo?

不需要。Polar的设计是训练框架无关的(trainer agnostic)。它通过HTTP接口暴露推出服务,任何训练框架都可以通过简单的API调用集成。目前官方提供与Slime框架的集成示例。

Q3: 为什么需要同时安装推理后端(vLLM或SGLang)?

Polar负责推出逻辑,但智能体在推理时需要调用大语言模型生成响应。推理后端提供高效的模型推理能力。用户可根据训练框架的兼容性选择其一。

Q4: 安装时提示依赖冲突怎么办?

官方强烈建议不要在同一环境中同时安装vLLM和SGLang。如果遇到依赖冲突,请单独创建虚拟环境,分别用于Polar服务器和推理后端。

Q5: Polar支持多GPU训练吗?

支持。通过配置多个Gateway Node节点,每个节点可以绑定不同的GPU资源,实现分布式并行推出。中央编排器会自动负载均衡。

Q6: 如何添加自定义评估器?

请参考官方文档中的“Builder and Evaluator Guides”部分。您需要实现注册的策略,并在topology.yaml中指定评估器类型和参数。

Q7: Polar目前支持哪些训练算法?

Polar本身不实现训练算法,但提供了与Slime训练框架的集成示例,支持GRPO等算法。此外,由于是HTTP接口设计,理论上任何训练框架都可以集成。

Q8: Polar是否支持视觉大模型(VLM)?

是的。官方提供了“Count Stars”示例,用于VLM的最小测试。未来路线图还包括CUA(VLM/VLA)支持。

Q9: 安装Dashboard UI时需要Node.js吗?

是的。Dashboard前端使用TypeScript构建,需要先安装Node.js和npm,然后进入web目录执行npm install && npm run build

Q10: Polar的许可证是什么?

Polar使用Apache-2.0许可证,允许商业使用、修改和分发。

八、相关链接

  • GitHub仓库:https://github.com/NVIDIA-NeMo/ProRL-Agent-Server

  • Paper(Polar):arXiv:2605.24220

  • Paper(ProRL Agent):arXiv:2603.18815

九、总结

Polar是由NVIDIA NeMo团队开发的强化学习推出框架,核心优势在于“工具箱即环境”的设计理念,让开发者无需修改现有智能体评估框架代码,即可将其转化为RL训练环境。通过智能推出管线、并行推出分阶段执行和运行时池化技术,Polar显著节省GPU资源,支持高效、可扩展的异步RL训练。采用服务器模式架构,Polar与任何训练框架解耦,支持vLLM和SGLang双推理后端,并提供丰富的内置工具箱(如SWE-bench、Shell)和可观测性仪表盘。截至2026年,Polar在GitHub上已获得470个Star,提供Calculator、Count Stars、SWE-bench Verified等开箱即用的示例,适用于代码修复、视觉问答、多轮对话等真实世界智能体训练场景,是强化学习工程师和AI研究员进行真实环境RL训练的理想工具。

打赏
THE END
作者头像
AI铺子
关注ai行业发展,专注ai工具推荐