ROCK:阿里巴巴开源的强化学习沙箱环境构建与管理工具 ROCK(Reinforcement Open Construction Kit)是由阿里巴巴淘天未来生活实验室与AI引擎团队联合开发的开源强化学习环境管理框架,基于客户端-服务器架构,提供沙箱环境的构... 1个月前 AI新闻 46
Verl:字节跳动开源的 LLM 强化学习训练工具,高效支持 RLHF 与多算法部署 Verl是由字节跳动Seed团队发起、社区共同维护的开源强化学习(RL)训练库,专为大型语言模型(LLMs)设计,该项目以“灵活易用、高效性能、生产级就绪”为核心优势,深度整... 1个月前 AI新闻 202