One-Eval:开源大模型智能评测框架,自然语言驱动全自动基准测评

原创 发布日期:
64

一、One-Eval 是什么

One-Eval 是由北大 OpenDCAI 团队开源打造的大语言模型一站式智能评测框架,基于智能工作流与 Agent 思想设计,主打自然语言驱动自动化评测核心能力。项目彻底打破传统大模型评测需要手动编写脚本、配置复杂参数、手动适配基准数据集的繁琐流程,实现输入自然语言评测需求,全自动完成从数据集加载、模型推理、指标计算到评测报告生成的全链路闭环。

One-Eval 面向算法工程师、大模型研发人员、AI 评测从业者、科研人员打造,支持本地私有化部署、自定义评测任务、接入私有模型与私有数据集,是轻量化、高灵活、易扩展的 LLM 专用评测开源解决方案。

二、功能特色

  1. NL2Eval 自然语言评测驱动
    无需编写代码和配置文件,直接用日常自然语言描述评测需求,框架自动解析评测意图、匹配对应评测维度、筛选适配基准任务,零基础也能快速上手大模型评测。

  2. 全链路自动化评测流程
    内置完整评测流水线:基准任务推荐 → 数据集自动下载与预处理 → 模型批量推理 → 多维度指标打分 → 可视化评测报告生成,全程无人值守自动执行。

  3. 人机协同可控评测机制
    支持流程中断、人工干预、任务参数手动调整,关键评测节点可人工审核校验,兼顾自动化效率与人工精准把控,适配专业严谨的科研与工业评测场景。

  4. 丰富内置评测基准库
    项目原生集成主流中英文大模型评测基准,覆盖多能力维度:

  • 逻辑数学推理:GSM8K、MATH、BBH、AIME

  • 通识知识考核:MMLU、C-Eval、CMMLU

  • 指令遵循能力:IFEval 等经典基准任务

  1. 高可扩展自定义能力
    支持接入本地私有大模型、私有化数据集、自定义评测指标、自定义评测工作流,开发者可基于原有架构扩展新增评测任务,适配行业定制化评测需求。

  2. 前后端一体化部署
    配套独立 Web 前端可视化界面,支持网页端操作评测任务、查看实时进度、浏览可视化报告;后端基于接口服务设计,可对接第三方系统做二次集成。

One-Eval:开源大模型智能评测框架,自然语言驱动全自动基准测评

三、技术细节

1. 整体技术栈

  • 核心引擎:基于 LangGraph 构建智能工作流,依托 DataFlow 算子实现任务编排与状态流转管理。

  • 后端服务:采用 FastAPI 搭建高性能接口服务,异步处理多任务评测请求,支持高并发批量评测。

  • 前端界面:Vite + React 开发轻量化 Web 管理端,交互流畅,支持任务管理、结果展示、报告预览。

  • 运行环境:适配 Python 3.11 及以上版本,支持本地 conda、uv 等虚拟环境部署,兼容性强。

2. 核心架构设计

整体采用模块化分层架构,分为意图解析层、任务编排层、评测执行层、结果生成层四层:

  • 意图解析层:接收自然语言指令,通过语义理解拆解评测维度、任务类型、模型参数;

  • 任务编排层:借助 LangGraph 维护评测状态,调度各子任务有序执行,支持断点续跑;

  • 评测执行层:对接大模型推理接口,加载基准数据集,完成样本推理与结果校验;

  • 结果生成层:聚合各项指标数据,自动生成文本评测报告与可视化统计内容。

3. 部署与运行核心命令

项目支持源码本地安装与服务启动,核心操作命令如下:

# 克隆项目源码
git clone https://github.com/OpenDCAI/One-Eval.git
cd One-Eval

# 本地项目依赖安装
pip install -e .

# 启动后端服务
uvicorn one_eval.server.app:app --host 0.0.0.0 --port 8000

# 前端启动
cd one-eval-web
npm install
npm run dev

4. 极简代码调用示例

无需启动网页,直接通过命令行发起自然语言评测任务:

python -m one_eval.graph.workflow_all "评测大模型数学推理和通识知识能力"

四、应用场景

  • 大模型研发自测:AI 研发团队快速自测自研大模型推理、知识、指令遵循等基础能力,迭代模型版本。

  • 科研学术评测:高校、科研机构开展大模型相关论文实验,标准化基准评测,生成规范实验数据报告。

  • 企业选型测评:企业对比多款开源/商用大模型综合能力,低成本完成横向评测选型。

  • 教学学习实训:AI 相关专业教学实训,帮助学生理解大模型评测流程与基准体系。

  • 私有化定制评测:政企内部私有大模型、行业专属数据集的离线私有化评测,保障数据安全不外泄。

五、使用方法

  1. 环境准备
    搭建 Python 3.11 虚拟环境,推荐使用 conda 或 uv 管理环境,避免依赖版本冲突。

  2. 源码拉取与安装
    通过 Git 克隆项目到本地,进入项目根目录执行 pip install -e . 完成本地源码安装。

  3. 服务启动
    分别启动后端 FastAPI 接口服务和 React 前端页面,默认本地端口访问 Web 管理界面。

  4. 发起评测任务
    两种使用方式可选:

  • 网页端:在前端界面输入自然语言评测需求,选择待评测模型,一键启动自动评测;

  • 命令行:直接执行预设命令,传入评测描述,后台自动运行全流程任务。

  1. 查看评测结果
    任务完成后,可在线查看各项指标得分、对比数据、综合评测报告,支持报告导出留存。

One-Eval:开源大模型智能评测框架,自然语言驱动全自动基准测评

六、竞品对比

选取 2 款主流开源大模型评测框架与 One-Eval 进行横向对比:

对比维度 One-Eval LM Evaluation Harness EvalPlus
核心交互方式自然语言NL2Eval驱动,低代码无代码操作 需编写命令行参数、配置脚本 需自定义配置文件,依赖代码调用
自动化程度 全链路全自动,无需人工干预中间流程 仅负责基准打分,需手动准备数据集与任务 侧重代码模型评测,通用LLM自动化较弱
Web可视化界面 原生配套前后端一体化Web界面 无官方前端,仅命令行输出 无可视化管理界面,纯脚本运行
扩展能力 支持私有模型、私有数据集、自定义指标 支持基准扩展,定制流程复杂度高 偏向代码评测场景,通用能力扩展有限
上手门槛 零基础友好,自然语言即可操作 需掌握命令行与评测参数配置 有一定代码基础门槛

七、常见问题解答

Question 1:One-Eval 支持商用私有化部署吗?

Answer:项目采用 Apache-2.0 开源协议,允许个人、企业免费使用、修改和私有化部署,可用于商业项目内部评测场景,无需额外授权费用。

Question 2:是否可以接入本地开源大模型而非在线API模型?

Answer:完全支持,框架预留模型接入接口,可适配本地部署的 Llama、Qwen、DeepSeek 等各类开源大模型,离线完成整套评测流程。

Question 3:新手没有代码基础,能不能正常使用该项目?

Answer:可以,依托 Web 前端界面和 NL2Eval 自然语言评测能力,无需编写任何代码,仅通过文字描述评测需求即可完成全部操作。

Question 4:评测任务中途关闭终端,是否需要重新开始?

Answer:框架基于 LangGraph 做状态管理,支持断点续跑,中断后重新启动服务可继续未完成的评测任务,无需从头执行。

Question 5:能否新增自定义的行业专属评测数据集?

Answer:支持,项目架构预留自定义数据集接入入口,按照规范格式导入私有数据集后,即可配置为专属评测任务使用。

八、相关链接

九、总结

One-Eval 作为一款面向大模型领域的开源智能评测框架,以自然语言驱动评测为核心亮点,整合了主流中英文评测基准,构建了从需求输入到报告输出的全链路自动化流程,同时配备可视化 Web 操作界面与高可扩展架构,大幅降低了大模型评测的技术门槛与操作成本。它兼顾新手简易使用与专业场景定制扩展需求,适配科研、企业研发、模型选型、教学实训等多元场景,凭借低门槛、全自动化、易部署、可私有化的优势,成为轻量化大模型评测领域实用性极强的开源工具。

打赏
THE END
作者头像
dotaai
正在和我的聊天机器人谈恋爱,它很会捧场。