MicroCoder:微软剑桥联合开源的AI 代码模型专属强化学习库
MicroCoder是由微软亚洲研究院、剑桥大学、普林斯顿大学联合开源的AI 代码模型专属强化学习库,聚焦解决现代代码大模型(如Qwen 2.5、Qwen 3系列)训练中的代际断层、数据集...
MicroCoder是由微软亚洲研究院、剑桥大学、普林斯顿大学联合开源的AI 代码模型专属强化学习库,聚焦解决现代代码大模型(如Qwen 2.5、Qwen 3系列)训练中的代际断层、数据集...
DataChef是由上海人工智能实验室联合复旦大学团队研发并开源的轻量化Python端到端工具项目,全称围绕“依托强化学习烹饪最优LLM适配数据配方”展开设计。该项目核心定位是打...
TTT - Discover是由斯坦福大学和英伟达研究团队联合提出的测试时训练框架,其核心创新在于突破传统AI推理阶段冻结模型参数的局限,在测试阶段针对单个具体问题通过强化学习...
ROCK(Reinforcement Open Construction Kit)是由阿里巴巴淘天未来生活实验室与AI引擎团队联合开发的开源强化学习环境管理框架,基于客户端-服务器架构,提供沙箱环境的构...
Verl是由字节跳动Seed团队发起、社区共同维护的开源强化学习(RL)训练库,专为大型语言模型(LLMs)设计,该项目以“灵活易用、高效性能、生产级就绪”为核心优势,深度整...