ML-Master:上海交大开源的下一代自主机器学习 AI 专家智能体

原创 发布日期:
71

一、 ML-Master是什么

ML-Master是由上海交通大学人工智能学院SAI实验室主导,联合EigenAI提供基础设施支持研发的开源AI-for-AI(即用AI解决AI任务)自主智能体,核心定位是成为“机器学习领域的AI专家”,能够像人类机器学习工程师一样,自主完成从问题建模、实验设计、代码编写、模型调参到结果提交的全流程任务。该项目聚焦机器学习工程(MLE)场景,解决传统AI-for-AI方案中探索与推理割裂、经验无法复用、复杂任务适应性差等核心痛点,目前已迭代至2.0版本,核心代码完全开源在GitHub平台。

从发展历程来看,ML-Master 1.0版本实现了探索与推理的初步整合,而2025年推出的2.0版本则新增GPT-5支持、轻量化Docker部署,优化代码可读性与可维护性,性能实现跨越式提升,整体性能较1.0版本提升92.7%。在权威评测中,ML-Master凭借29.3%的平均奖牌率登顶OpenAI MLE-Bench基准榜单,大幅领先微软R&D-Agent(22.4%)和OpenAI AIDE系统(16.9%),同时达成Kaggle比赛“Grandmaster(特级大师)”级别,在20余万Kaggle参赛者中位列第259位,是目前全球领先的开源自主机器学习智能体之一。

ML-Master:上海交大开源的下一代自主机器学习 AI 专家智能体

二、 功能特色

ML-Master凭借创新的技术范式和扎实的性能表现,具备五大核心功能特色,且在权威基准中实现全维度领先,核心性能数据可通过下表直观呈现:

表1 ML-Master核心性能对比表(2.0版本 vs 1.0版本 vs 同类竞品)

评测维度 ML-Master 2.0 ML-Master 1.0 微软R&D-Agent OpenAI AIDE
平均奖牌率(MLE-Bench) 29.3% 15.2% 22.4% 16.9%
中等难度任务奖牌率 20.2% 8.0% 9.0% 7.5%
高难度任务奖牌率 24.4% 14.1% 18.7% 15.1%
任务有效提交率 93.3% 78.5% 85.1% 81.2%
完成全量任务耗时 12小时 24小时 20小时 22小时
  1. 权威榜单登顶,全维度性能领先:ML-Master 2.0在OpenAI MLE-Bench基准中斩获榜首,该基准包含75个来自Kaggle的真实机器学习任务,覆盖代码编写、模型调参等完整流程,是全球最权威的机器学习工程能力评测标准。项目不仅奖牌率领先,还实现93.3%的任务有效提交率,44.9%的任务性能超越半数人类参赛者,且完成全量任务仅需12小时,计算效率为基线方法的2倍,兼顾性能与效率。

  2. 探索推理深度融合,突破传统技术瓶颈:区别于传统AI-for-AI方案中探索与推理各自为战的问题,ML-Master创新采用“探索-推理深度融合”范式,平衡多轨迹探索与可控推理两大核心能力,既避免无目的低效试错,也防止脱离实际的空想推理,让智能体像人类专家一样“广泛探索+深度思考”。

  3. 自适应记忆+层次化认知缓存,实现经验复用:核心搭载自适应记忆机制,可智能捕捉探索过程中的有效信息、代码片段和性能指标,避免信息过载;2.0版本新增层次化认知缓存,将认知分为即时经验、阶段性知识、跨任务智慧三个层级,实现长期经验沉淀与复用,让智能体在多轮任务中持续进化,性能较初始状态提升超120%。

  4. 多LLM兼容+轻量化部署,适配性极强:支持多类大语言模型后端,包括GPT-5、通义千问、DeepSeek等闭源与开源模型,用户可按需切换;同时提供Docker镜像一键部署,无需复杂环境配置,本地部署仅需满足基础Python环境,降低使用门槛,兼顾科研与工程场景需求。

  5. 高泛化适配,覆盖全难度机器学习任务:在低、中、高不同复杂度任务中均表现稳定,低难度任务奖牌率达48.5%,中等难度任务奖牌率较竞品提升2.2倍,高难度任务实现30%性能超越,可适配图像分类、分割、文本处理、数值预测等多类型机器学习任务,泛化能力突出。

三、 技术细节

ML-Master的核心优势源于其严谨的技术架构设计,整体采用“五大核心模块+三大核心技术”的架构体系,各模块分工明确、协同联动,技术实现兼顾创新性与实用性

表2 ML-Master核心模块及核心功能

核心模块 所属目录 核心功能
平衡多轨迹探索模块 agent/search 基于MCTS构建决策树,并行探索多解决方案,动态分配计算资源,避免无效探索
可控推理模块 agent/interpreter 基于记忆信息做情境化决策,形成闭环学习,让推理有据可依,持续优化策略
自适应记忆模块 utils/memory 捕捉关键信息、筛选冗余内容,实现探索与推理的信息互通,支撑协同进化
多LLM后端模块 backend 适配GPT-5、通义千问、DeepSeek等模型,提供统一调用接口,灵活切换
任务调度与评分模块 main_mcts.py/grading_server.py 任务流程管控、结果评分校验,保障任务全流程闭环执行

(一) 核心架构设计

ML-Master的整体架构围绕“探索-推理-记忆”三大核心逻辑构建,形成完整闭环,确保智能体自主完成机器学习任务:

  1. 平衡多轨迹探索模块:这是智能体的“实践探索引擎”,核心基于蒙特卡洛树搜索(MCTS)技术,将机器学习任务拆解为决策树,每个节点代表一个解决方案状态。模块支持多分支并行探索,突破传统串行探索的效率瓶颈,同时会动态评估各分支潜力,将计算资源优先分配给高价值方向,大幅提升探索效率,减少无效试错。

  2. 可控推理模块:这是智能体的“深度思考引擎”,核心作用是基于探索结果和记忆信息做精准决策。不同于传统推理的“拍脑袋”输出,该模块会结合历史执行反馈和成功经验,做情境化推理,比如根据上一轮模型的精度不足,针对性优化调参策略,同时形成“推理-执行-反馈-优化”的闭环,持续提升决策质量。

  3. 自适应记忆模块:这是智能体的“核心大脑中枢”,也是探索与推理的协同桥梁。模块会自动收集探索过程中的执行结果、有效代码、性能指标,同时筛选冗余信息,避免信息过载;还会整合不同分支的关键经验,将其嵌入推理模块的决策过程,实现“探索驱动推理、推理反哺探索”的协同进化,让两大模块相互强化。

  4. 多LLM后端模块:提供统一的LLM调用接口,适配不同类型大语言模型,用户只需在配置文件中修改模型参数,即可切换GPT-5、通义千问、DeepSeek等模型,兼顾闭源模型的高性能和开源模型的低成本,适配不同用户的资源条件。

  5. 任务调度与评分模块:负责任务全流程管控,从任务初始化、探索推理分配到结果提交、评分校验,一站式完成;评分模块可对接MLE-Bench标准,实时校验提交结果格式与性能,确保输出符合任务要求。

(二) 核心技术支撑

  1. 蒙特卡洛树搜索(MCTS)优化:针对机器学习任务特点优化MCTS算法,优化节点评估权重,重点关注模型精度、训练效率、代码可行性三大指标,让探索方向更贴合机器学习工程实际需求,提升探索的有效性。

  2. 层次化认知缓存机制:2.0版本核心升级技术,将智能体的认知分为三个层级,即时经验用于当前任务的实时决策,阶段性知识用于同一任务的反复复用,跨任务智慧用于迁移到新任务中,解决传统智能体“上下文爆炸”和“经验遗忘”的问题,实现长期自主进化。

  3. 探索-推理闭环协同技术:通过自适应记忆模块搭建两大模块的信息通道,探索结果实时同步给推理模块,推理模块输出的优化策略即时指导后续探索,形成无人工干预的自主闭环,让智能体在反复迭代中持续提升任务性能。

(三) 代码结构说明

ML-Master仓库代码结构清晰,核心文件分工明确,方便用户查阅和二次开发:

  • 核心运行文件:main_mcts.py(项目主程序,启动探索推理全流程)、grading_server.py(评分服务器)、run.sh(快速启动脚本);

  • 核心模块目录:agent(智能体核心逻辑)、backend(LLM后端适配)、dataset(75个真实任务数据集)、utils(工具函数);

  • 配置文件:config_mcts.yaml(核心配置,可修改模型、探索参数、任务类型等);

  • 开发分支:main分支为稳定版本,feature-dev分支为优化版本,可读性和可维护性更强,适合二次开发。

ML-Master:上海交大开源的下一代自主机器学习 AI 专家智能体

四、 应用场景

ML-Master聚焦机器学习全流程自主化,凭借高泛化性和强性能,可适配多领域实际场景,核心应用场景分为三大类,覆盖工程落地与前沿科研:

  1. 计算机视觉领域:这是ML-Master适配最成熟的场景,可自主完成图像分类、语义分割等任务,具体包括植物标本分类、酒店ID识别(反人口贩卖场景)、肾脏组织医疗影像分割等。比如在肾脏组织分割任务中,智能体可自主设计分割模型、优化标注数据利用率,性能超越半数人类参赛者,可辅助医疗影像辅助诊断,降低人工成本。

  2. 通用机器学习预测任务:适配各类结构化数据预测场景,包括用户行为预测、销量预测、风险评估等。比如基于电商用户行为数据,自主完成特征工程、模型选择、调参优化,输出精准的用户购买转化预测结果,无需人工参与建模流程,提升企业数据分析效率。

  3. 前沿科研辅助场景:依托2.0版本的层次化认知缓存和长期自主进化能力,ML-Master已落地前沿科研场景,包括具身智能机器人训练、理论物理模拟等。在具身智能训练中,可自主优化机器人感知与决策模型;在理论物理模拟中,可自主调整模拟参数、分析模拟结果,辅助科研人员提升研究效率。

五、 使用方法

ML-Master提供两种部署方式,优先推荐Docker镜像部署,无需复杂环境配置;本地部署需满足基础Python环境,整体操作简单易懂,分三步即可快速上手:

(一) 环境准备

  1. 方式一:Docker镜像部署(推荐) 这是最便捷的部署方式,无需手动安装依赖,适配Windows、Mac、Linux系统,核心命令如下:

    # 拉取最新ML-Master镜像

    docker pull sjtu-sai-agents/ml-master:latest

    # 启动交互式容器

    docker run -it --name ml-master-container sjtu-sai-agents/ml-master:latest /bin/bash

  2. 方式二:本地部署 需满足Python 3.11+环境,核心步骤如下:

    # 克隆GitHub仓库

    git clone https://github.com/sjtu-sai-agents/ML-Master.git

    # 进入仓库目录

    cd ML-Master

    # 安装依赖包

    pip install -r requirements.txt

(二) 快速启动

本地部署和Docker部署均可通过脚本快速启动,无需手动配置复杂参数,核心操作如下:

# 执行快速启动脚本,默认运行MLE-Bench基准任务

bash run.sh

# 若需指定任务,可修改main_mcts.py中的任务ID参数,或通过命令行传入

python main_mcts.py --task_id herbarium-2021-fgvc8(植物标本分类任务)

(三) 自定义任务配置

若需适配自身机器学习任务,可通过修改配置文件实现,核心操作如下:

  1. 打开utils/config_mcts.yaml配置文件;

  2. 修改LLM后端参数:选择使用的模型(如gpt-5、qwen、deepseek),填写对应API密钥;

  3. 修改探索参数:调整MCTS探索分支数、迭代次数,适配任务复杂度;

  4. 上传自定义任务数据:将任务数据放入dataset目录,按照MLE-Bench格式编写任务说明,即可让智能体自主完成任务。

ML-Master:上海交大开源的下一代自主机器学习 AI 专家智能体

六、 常见问题解答

Q:Docker拉取镜像失败,提示连接超时怎么办?

A:可更换国内Docker镜像源(如阿里云、网易云),配置完成后重新执行拉取命令;若仍失败,可直接克隆仓库进行本地部署,本地部署仅需满足Python 3.11+环境,依赖包均可通过pip安装。

Q:运行任务时提示LLM调用报错,无法生成代码怎么办?

A:首先检查config_mcts.yaml中模型API密钥是否填写正确,网络是否能正常访问对应模型服务;若使用开源模型(如通义千问),需确保本地已部署对应模型服务,或填写正确的开源模型调用地址。

Q:智能体执行任务后性能不达标,如何优化?

A:可通过两种方式优化:一是调整config_mcts.yaml中的探索参数,增加探索分支数和迭代次数,提升探索全面性;二是在任务说明中补充更多细节(如数据特点、性能要求),让智能体的推理更贴合任务需求。

Q:ML-Master支持哪些大语言模型,是否支持国产开源模型?

A:目前支持GPT-3.5、GPT-4、GPT-5等闭源模型,同时支持通义千问、DeepSeek、Llama 3等开源模型,国产开源模型需在backend目录下确认对应适配文件,若无对应文件可基于现有backend模板快速适配。

Q:想基于ML-Master二次开发,优先选择哪个分支?

A:优先选择feature-dev分支,该分支是2025年10月更新的优化版本,优化了代码可读性和可维护性,补充了详细注释,更适合二次开发;main分支为稳定版本,适合直接使用,不建议修改核心代码。

ML-Master:上海交大开源的下一代自主机器学习 AI 专家智能体

七、 相关链接

八、 总结

ML-Master作为一款开源AI-for-AI自主智能体,核心以探索与推理深度融合为核心范式,搭配自适应记忆与层次化认知缓存机制,实现机器学习任务全流程自主完成,在OpenAI MLE-Bench权威基准中以29.3%平均奖牌率登顶榜首,达成Kaggle特级大师水平,2.0版本性能较1.0提升92.7%,且计算效率翻倍,同时支持多LLM兼容和Docker轻量化部署,降低使用门槛,其核心架构兼顾创新性与实用性,代码结构清晰便于二次开发,既能适配计算机视觉、通用预测等工程落地场景,也能辅助具身智能、理论物理模拟等前沿科研,为AI自主优化AI领域提供了高效、可靠的开源解决方案,是当前开源生态中极具实用性和参考价值的机器学习智能体项目。

打赏
THE END
作者头像
AI工具箱
一个喜欢收集AI工具的小萌新