ML-Master：上海交大开源的下一代自主机器学习 AI 专家智能体

原创发布日期：2025-12-27

一、 ML-Master是什么

ML-Master是由上海交通大学人工智能学院SAI实验室主导，联合EigenAI提供基础设施支持研发的开源AI-for-AI（即用AI解决AI任务）自主智能体，核心定位是成为“机器学习领域的AI专家”，能够像人类机器学习工程师一样，自主完成从问题建模、实验设计、代码编写、模型调参到结果提交的全流程任务。该项目聚焦机器学习工程（MLE）场景，解决传统AI-for-AI方案中探索与推理割裂、经验无法复用、复杂任务适应性差等核心痛点，目前已迭代至2.0版本，核心代码完全开源在GitHub平台。

从发展历程来看，ML-Master 1.0版本实现了探索与推理的初步整合，而2025年推出的2.0版本则新增GPT-5支持、轻量化Docker部署，优化代码可读性与可维护性，性能实现跨越式提升，整体性能较1.0版本提升92.7%。在权威评测中，ML-Master凭借29.3%的平均奖牌率登顶OpenAI MLE-Bench基准榜单，大幅领先微软R&D-Agent（22.4%）和OpenAI AIDE系统（16.9%），同时达成Kaggle比赛“Grandmaster（特级大师）”级别，在20余万Kaggle参赛者中位列第259位，是目前全球领先的开源自主机器学习智能体之一。

二、功能特色

ML-Master凭借创新的技术范式和扎实的性能表现，具备五大核心功能特色，且在权威基准中实现全维度领先，核心性能数据可通过下表直观呈现：

表1 ML-Master核心性能对比表（2.0版本 vs 1.0版本 vs 同类竞品）

评测维度	ML-Master 2.0	ML-Master 1.0	微软R&D-Agent	OpenAI AIDE
平均奖牌率（MLE-Bench）	29.3%	15.2%	22.4%	16.9%
中等难度任务奖牌率	20.2%	8.0%	9.0%	7.5%
高难度任务奖牌率	24.4%	14.1%	18.7%	15.1%
任务有效提交率	93.3%	78.5%	85.1%	81.2%
完成全量任务耗时	12小时	24小时	20小时	22小时

权威榜单登顶，全维度性能领先：ML-Master 2.0在OpenAI MLE-Bench基准中斩获榜首，该基准包含75个来自Kaggle的真实机器学习任务，覆盖代码编写、模型调参等完整流程，是全球最权威的机器学习工程能力评测标准。项目不仅奖牌率领先，还实现93.3%的任务有效提交率，44.9%的任务性能超越半数人类参赛者，且完成全量任务仅需12小时，计算效率为基线方法的2倍，兼顾性能与效率。
探索推理深度融合，突破传统技术瓶颈：区别于传统AI-for-AI方案中探索与推理各自为战的问题，ML-Master创新采用“探索-推理深度融合”范式，平衡多轨迹探索与可控推理两大核心能力，既避免无目的低效试错，也防止脱离实际的空想推理，让智能体像人类专家一样“广泛探索+深度思考”。
自适应记忆+层次化认知缓存，实现经验复用：核心搭载自适应记忆机制，可智能捕捉探索过程中的有效信息、代码片段和性能指标，避免信息过载；2.0版本新增层次化认知缓存，将认知分为即时经验、阶段性知识、跨任务智慧三个层级，实现长期经验沉淀与复用，让智能体在多轮任务中持续进化，性能较初始状态提升超120%。
多LLM兼容+轻量化部署，适配性极强：支持多类大语言模型后端，包括GPT-5、通义千问、DeepSeek等闭源与开源模型，用户可按需切换；同时提供Docker镜像一键部署，无需复杂环境配置，本地部署仅需满足基础Python环境，降低使用门槛，兼顾科研与工程场景需求。
高泛化适配，覆盖全难度机器学习任务：在低、中、高不同复杂度任务中均表现稳定，低难度任务奖牌率达48.5%，中等难度任务奖牌率较竞品提升2.2倍，高难度任务实现30%性能超越，可适配图像分类、分割、文本处理、数值预测等多类型机器学习任务，泛化能力突出。

三、技术细节

ML-Master的核心优势源于其严谨的技术架构设计，整体采用“五大核心模块+三大核心技术”的架构体系，各模块分工明确、协同联动，技术实现兼顾创新性与实用性

表2 ML-Master核心模块及核心功能

核心模块	所属目录	核心功能
平衡多轨迹探索模块	agent/search	基于MCTS构建决策树，并行探索多解决方案，动态分配计算资源，避免无效探索
可控推理模块	agent/interpreter	基于记忆信息做情境化决策，形成闭环学习，让推理有据可依，持续优化策略
自适应记忆模块	utils/memory	捕捉关键信息、筛选冗余内容，实现探索与推理的信息互通，支撑协同进化
多LLM后端模块	backend	适配GPT-5、通义千问、DeepSeek等模型，提供统一调用接口，灵活切换
任务调度与评分模块	main_mcts.py/grading_server.py	任务流程管控、结果评分校验，保障任务全流程闭环执行

（一）核心架构设计

ML-Master的整体架构围绕“探索-推理-记忆”三大核心逻辑构建，形成完整闭环，确保智能体自主完成机器学习任务：

平衡多轨迹探索模块：这是智能体的“实践探索引擎”，核心基于蒙特卡洛树搜索（MCTS）技术，将机器学习任务拆解为决策树，每个节点代表一个解决方案状态。模块支持多分支并行探索，突破传统串行探索的效率瓶颈，同时会动态评估各分支潜力，将计算资源优先分配给高价值方向，大幅提升探索效率，减少无效试错。
可控推理模块：这是智能体的“深度思考引擎”，核心作用是基于探索结果和记忆信息做精准决策。不同于传统推理的“拍脑袋”输出，该模块会结合历史执行反馈和成功经验，做情境化推理，比如根据上一轮模型的精度不足，针对性优化调参策略，同时形成“推理-执行-反馈-优化”的闭环，持续提升决策质量。
自适应记忆模块：这是智能体的“核心大脑中枢”，也是探索与推理的协同桥梁。模块会自动收集探索过程中的执行结果、有效代码、性能指标，同时筛选冗余信息，避免信息过载；还会整合不同分支的关键经验，将其嵌入推理模块的决策过程，实现“探索驱动推理、推理反哺探索”的协同进化，让两大模块相互强化。
多LLM后端模块：提供统一的LLM调用接口，适配不同类型大语言模型，用户只需在配置文件中修改模型参数，即可切换GPT-5、通义千问、DeepSeek等模型，兼顾闭源模型的高性能和开源模型的低成本，适配不同用户的资源条件。
任务调度与评分模块：负责任务全流程管控，从任务初始化、探索推理分配到结果提交、评分校验，一站式完成；评分模块可对接MLE-Bench标准，实时校验提交结果格式与性能，确保输出符合任务要求。

（二）核心技术支撑

蒙特卡洛树搜索（MCTS）优化：针对机器学习任务特点优化MCTS算法，优化节点评估权重，重点关注模型精度、训练效率、代码可行性三大指标，让探索方向更贴合机器学习工程实际需求，提升探索的有效性。
层次化认知缓存机制：2.0版本核心升级技术，将智能体的认知分为三个层级，即时经验用于当前任务的实时决策，阶段性知识用于同一任务的反复复用，跨任务智慧用于迁移到新任务中，解决传统智能体“上下文爆炸”和“经验遗忘”的问题，实现长期自主进化。
探索-推理闭环协同技术：通过自适应记忆模块搭建两大模块的信息通道，探索结果实时同步给推理模块，推理模块输出的优化策略即时指导后续探索，形成无人工干预的自主闭环，让智能体在反复迭代中持续提升任务性能。

（三）代码结构说明

ML-Master仓库代码结构清晰，核心文件分工明确，方便用户查阅和二次开发：

核心运行文件：main_mcts.py（项目主程序，启动探索推理全流程）、grading_server.py（评分服务器）、run.sh（快速启动脚本）；
核心模块目录：agent（智能体核心逻辑）、backend（LLM后端适配）、dataset（75个真实任务数据集）、utils（工具函数）；
配置文件：config_mcts.yaml（核心配置，可修改模型、探索参数、任务类型等）；
开发分支：main分支为稳定版本，feature-dev分支为优化版本，可读性和可维护性更强，适合二次开发。

ML-Master：上海交大开源的下一代自主机器学习 AI 专家智能体

四、应用场景

ML-Master聚焦机器学习全流程自主化，凭借高泛化性和强性能，可适配多领域实际场景，核心应用场景分为三大类，覆盖工程落地与前沿科研：

计算机视觉领域：这是ML-Master适配最成熟的场景，可自主完成图像分类、语义分割等任务，具体包括植物标本分类、酒店ID识别（反人口贩卖场景）、肾脏组织医疗影像分割等。比如在肾脏组织分割任务中，智能体可自主设计分割模型、优化标注数据利用率，性能超越半数人类参赛者，可辅助医疗影像辅助诊断，降低人工成本。
通用机器学习预测任务：适配各类结构化数据预测场景，包括用户行为预测、销量预测、风险评估等。比如基于电商用户行为数据，自主完成特征工程、模型选择、调参优化，输出精准的用户购买转化预测结果，无需人工参与建模流程，提升企业数据分析效率。
前沿科研辅助场景：依托2.0版本的层次化认知缓存和长期自主进化能力，ML-Master已落地前沿科研场景，包括具身智能机器人训练、理论物理模拟等。在具身智能训练中，可自主优化机器人感知与决策模型；在理论物理模拟中，可自主调整模拟参数、分析模拟结果，辅助科研人员提升研究效率。

五、使用方法

ML-Master提供两种部署方式，优先推荐Docker镜像部署，无需复杂环境配置；本地部署需满足基础Python环境，整体操作简单易懂，分三步即可快速上手：

（一）环境准备

方式一：Docker镜像部署（推荐）这是最便捷的部署方式，无需手动安装依赖，适配Windows、Mac、Linux系统，核心命令如下：
# 拉取最新ML-Master镜像
docker pull sjtu-sai-agents/ml-master:latest
# 启动交互式容器
docker run -it --name ml-master-container sjtu-sai-agents/ml-master:latest /bin/bash
方式二：本地部署需满足Python 3.11+环境，核心步骤如下：
# 克隆GitHub仓库
git clone https://github.com/sjtu-sai-agents/ML-Master.git
# 进入仓库目录
cd ML-Master
# 安装依赖包
pip install -r requirements.txt

（二）快速启动

本地部署和Docker部署均可通过脚本快速启动，无需手动配置复杂参数，核心操作如下：

# 执行快速启动脚本，默认运行MLE-Bench基准任务

bash run.sh

# 若需指定任务，可修改main_mcts.py中的任务ID参数，或通过命令行传入

python main_mcts.py --task_id herbarium-2021-fgvc8（植物标本分类任务）

（三）自定义任务配置

若需适配自身机器学习任务，可通过修改配置文件实现，核心操作如下：

打开utils/config_mcts.yaml配置文件；
修改LLM后端参数：选择使用的模型（如gpt-5、qwen、deepseek），填写对应API密钥；
修改探索参数：调整MCTS探索分支数、迭代次数，适配任务复杂度；
上传自定义任务数据：将任务数据放入dataset目录，按照MLE-Bench格式编写任务说明，即可让智能体自主完成任务。

ML-Master：上海交大开源的下一代自主机器学习 AI 专家智能体

六、常见问题解答

Q：Docker拉取镜像失败，提示连接超时怎么办？

A：可更换国内Docker镜像源（如阿里云、网易云），配置完成后重新执行拉取命令；若仍失败，可直接克隆仓库进行本地部署，本地部署仅需满足Python 3.11+环境，依赖包均可通过pip安装。

Q：运行任务时提示LLM调用报错，无法生成代码怎么办？

A：首先检查config_mcts.yaml中模型API密钥是否填写正确，网络是否能正常访问对应模型服务；若使用开源模型（如通义千问），需确保本地已部署对应模型服务，或填写正确的开源模型调用地址。

Q：智能体执行任务后性能不达标，如何优化？

A：可通过两种方式优化：一是调整config_mcts.yaml中的探索参数，增加探索分支数和迭代次数，提升探索全面性；二是在任务说明中补充更多细节（如数据特点、性能要求），让智能体的推理更贴合任务需求。

Q：ML-Master支持哪些大语言模型，是否支持国产开源模型？

A：目前支持GPT-3.5、GPT-4、GPT-5等闭源模型，同时支持通义千问、DeepSeek、Llama 3等开源模型，国产开源模型需在backend目录下确认对应适配文件，若无对应文件可基于现有backend模板快速适配。

Q：想基于ML-Master二次开发，优先选择哪个分支？

A：优先选择feature-dev分支，该分支是2025年10月更新的优化版本，优化了代码可读性和可维护性，补充了详细注释，更适合二次开发；main分支为稳定版本，适合直接使用，不建议修改核心代码。

ML-Master：上海交大开源的下一代自主机器学习 AI 专家智能体

七、相关链接

项目GitHub仓库（核心开源地址）：https://github.com/sjtu-sai-agents/ML-Master/
权威评测基准MLE-Bench（任务来源）：https://github.com/openai/mle-bench

八、总结

ML-Master作为一款开源AI-for-AI自主智能体，核心以探索与推理深度融合为核心范式，搭配自适应记忆与层次化认知缓存机制，实现机器学习任务全流程自主完成，在OpenAI MLE-Bench权威基准中以29.3%平均奖牌率登顶榜首，达成Kaggle特级大师水平，2.0版本性能较1.0提升92.7%，且计算效率翻倍，同时支持多LLM兼容和Docker轻量化部署，降低使用门槛，其核心架构兼顾创新性与实用性，代码结构清晰便于二次开发，既能适配计算机视觉、通用预测等工程落地场景，也能辅助具身智能、理论物理模拟等前沿科研，为AI自主优化AI领域提供了高效、可靠的开源解决方案，是当前开源生态中极具实用性和参考价值的机器学习智能体项目。

AI智能体机器学习工程开源项目

打赏

版权及免责申明：本文由@AI工具箱原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/ml-master.html

THE END

AI工具箱

一个喜欢收集AI工具的小萌新

+ 关注

ML-Master：上海交大开源的下一代自主机器学习 AI 专家智能体

文章目录

一、 ML-Master是什么

二、 功能特色

表1 ML-Master核心性能对比表（2.0版本 vs 1.0版本 vs 同类竞品）

三、 技术细节

表2 ML-Master核心模块及核心功能

（一） 核心架构设计

（二） 核心技术支撑

（三） 代码结构说明

四、 应用场景

五、 使用方法

（一） 环境准备

（二） 快速启动

（三） 自定义任务配置

六、 常见问题解答

七、 相关链接

八、 总结

相关文章

二、功能特色

三、技术细节

（一）核心架构设计

（二）核心技术支撑

（三）代码结构说明

四、应用场景

五、使用方法

（一）环境准备

（二）快速启动

（三）自定义任务配置

六、常见问题解答

七、相关链接

八、总结