强化学习

MicroCoder是由微软亚洲研究院、剑桥大学、普林斯顿大学联合开源的AI 代码模型专属强化学习库，聚焦解决现代代码大模型（如Qwen 2.5、Qwen 3系列）训练中的代际断层、数据集...

DataChef是由上海人工智能实验室联合复旦大学团队研发并开源的轻量化Python端到端工具项目，全称围绕“依托强化学习烹饪最优LLM适配数据配方”展开设计。该项目核心定位是打...

TTT - Discover是由斯坦福大学和英伟达研究团队联合提出的测试时训练框架，其核心创新在于突破传统AI推理阶段冻结模型参数的局限，在测试阶段针对单个具体问题通过强化学习...

ROCK（Reinforcement Open Construction Kit）是由阿里巴巴淘天未来生活实验室与AI引擎团队联合开发的开源强化学习环境管理框架，基于客户端-服务器架构，提供沙箱环境的构...

Verl是由字节跳动Seed团队发起、社区共同维护的开源强化学习（RL）训练库，专为大型语言模型（LLMs）设计，该项目以“灵活易用、高效性能、生产级就绪”为核心优势，深度整...

强化学习新闻、工具、教程及资源推荐