TTT - Discover:斯坦福与英伟达联合提出的测试时训练框架
TTT - Discover是由斯坦福大学和英伟达研究团队联合提出的测试时训练框架,其核心创新在于突破传统AI推理阶段冻结模型参数的局限,在测试阶段针对单个具体问题通过强化学习...
TTT - Discover是由斯坦福大学和英伟达研究团队联合提出的测试时训练框架,其核心创新在于突破传统AI推理阶段冻结模型参数的局限,在测试阶段针对单个具体问题通过强化学习...
ROCK(Reinforcement Open Construction Kit)是由阿里巴巴淘天未来生活实验室与AI引擎团队联合开发的开源强化学习环境管理框架,基于客户端-服务器架构,提供沙箱环境的构...
Verl是由字节跳动Seed团队发起、社区共同维护的开源强化学习(RL)训练库,专为大型语言模型(LLMs)设计,该项目以“灵活易用、高效性能、生产级就绪”为核心优势,深度整...