One-Eval：开源大模型智能评测框架，自然语言驱动全自动基准测评

原创发布日期：2026-05-06

一、One-Eval 是什么

One-Eval 是由北大 OpenDCAI 团队开源打造的大语言模型一站式智能评测框架，基于智能工作流与 Agent 思想设计，主打自然语言驱动自动化评测核心能力。项目彻底打破传统大模型评测需要手动编写脚本、配置复杂参数、手动适配基准数据集的繁琐流程，实现输入自然语言评测需求，全自动完成从数据集加载、模型推理、指标计算到评测报告生成的全链路闭环。

One-Eval 面向算法工程师、大模型研发人员、AI 评测从业者、科研人员打造，支持本地私有化部署、自定义评测任务、接入私有模型与私有数据集，是轻量化、高灵活、易扩展的 LLM 专用评测开源解决方案。

二、功能特色

NL2Eval 自然语言评测驱动
无需编写代码和配置文件，直接用日常自然语言描述评测需求，框架自动解析评测意图、匹配对应评测维度、筛选适配基准任务，零基础也能快速上手大模型评测。
全链路自动化评测流程
内置完整评测流水线：基准任务推荐 → 数据集自动下载与预处理 → 模型批量推理 → 多维度指标打分 → 可视化评测报告生成，全程无人值守自动执行。
人机协同可控评测机制
支持流程中断、人工干预、任务参数手动调整，关键评测节点可人工审核校验，兼顾自动化效率与人工精准把控，适配专业严谨的科研与工业评测场景。
丰富内置评测基准库
项目原生集成主流中英文大模型评测基准，覆盖多能力维度：

逻辑数学推理：GSM8K、MATH、BBH、AIME
通识知识考核：MMLU、C-Eval、CMMLU
指令遵循能力：IFEval 等经典基准任务

高可扩展自定义能力
支持接入本地私有大模型、私有化数据集、自定义评测指标、自定义评测工作流，开发者可基于原有架构扩展新增评测任务，适配行业定制化评测需求。
前后端一体化部署
配套独立 Web 前端可视化界面，支持网页端操作评测任务、查看实时进度、浏览可视化报告；后端基于接口服务设计，可对接第三方系统做二次集成。

One-Eval：开源大模型智能评测框架，自然语言驱动全自动基准测评

三、技术细节

1. 整体技术栈

核心引擎：基于 LangGraph 构建智能工作流，依托 DataFlow 算子实现任务编排与状态流转管理。
后端服务：采用 FastAPI 搭建高性能接口服务，异步处理多任务评测请求，支持高并发批量评测。
前端界面：Vite + React 开发轻量化 Web 管理端，交互流畅，支持任务管理、结果展示、报告预览。
运行环境：适配 Python 3.11 及以上版本，支持本地 conda、uv 等虚拟环境部署，兼容性强。

2. 核心架构设计

整体采用模块化分层架构，分为意图解析层、任务编排层、评测执行层、结果生成层四层：

意图解析层：接收自然语言指令，通过语义理解拆解评测维度、任务类型、模型参数；
任务编排层：借助 LangGraph 维护评测状态，调度各子任务有序执行，支持断点续跑；
评测执行层：对接大模型推理接口，加载基准数据集，完成样本推理与结果校验；
结果生成层：聚合各项指标数据，自动生成文本评测报告与可视化统计内容。

3. 部署与运行核心命令

项目支持源码本地安装与服务启动，核心操作命令如下：

# 克隆项目源码
git clone https://github.com/OpenDCAI/One-Eval.git
cd One-Eval

# 本地项目依赖安装
pip install -e .

# 启动后端服务
uvicorn one_eval.server.app:app --host 0.0.0.0 --port 8000

# 前端启动
cd one-eval-web
npm install
npm run dev

4. 极简代码调用示例

无需启动网页，直接通过命令行发起自然语言评测任务：

python -m one_eval.graph.workflow_all "评测大模型数学推理和通识知识能力"

四、应用场景

大模型研发自测：AI 研发团队快速自测自研大模型推理、知识、指令遵循等基础能力，迭代模型版本。
科研学术评测：高校、科研机构开展大模型相关论文实验，标准化基准评测，生成规范实验数据报告。
企业选型测评：企业对比多款开源/商用大模型综合能力，低成本完成横向评测选型。
教学学习实训：AI 相关专业教学实训，帮助学生理解大模型评测流程与基准体系。
私有化定制评测：政企内部私有大模型、行业专属数据集的离线私有化评测，保障数据安全不外泄。

五、使用方法

环境准备
搭建 Python 3.11 虚拟环境，推荐使用 conda 或 uv 管理环境，避免依赖版本冲突。
源码拉取与安装
通过 Git 克隆项目到本地，进入项目根目录执行 pip install -e . 完成本地源码安装。
服务启动
分别启动后端 FastAPI 接口服务和 React 前端页面，默认本地端口访问 Web 管理界面。
发起评测任务
两种使用方式可选：

网页端：在前端界面输入自然语言评测需求，选择待评测模型，一键启动自动评测；
命令行：直接执行预设命令，传入评测描述，后台自动运行全流程任务。

查看评测结果
任务完成后，可在线查看各项指标得分、对比数据、综合评测报告，支持报告导出留存。

One-Eval：开源大模型智能评测框架，自然语言驱动全自动基准测评

六、竞品对比

选取 2 款主流开源大模型评测框架与 One-Eval 进行横向对比：

对比维度	One-Eval	LM Evaluation Harness	EvalPlus
核心交互方式	自然语言NL2Eval驱动，低代码无代码操作	需编写命令行参数、配置脚本	需自定义配置文件，依赖代码调用
自动化程度	全链路全自动，无需人工干预中间流程	仅负责基准打分，需手动准备数据集与任务	侧重代码模型评测，通用LLM自动化较弱
Web可视化界面	原生配套前后端一体化Web界面	无官方前端，仅命令行输出	无可视化管理界面，纯脚本运行
扩展能力	支持私有模型、私有数据集、自定义指标	支持基准扩展，定制流程复杂度高	偏向代码评测场景，通用能力扩展有限
上手门槛	零基础友好，自然语言即可操作	需掌握命令行与评测参数配置	有一定代码基础门槛

七、常见问题解答

Question 1：One-Eval 支持商用私有化部署吗？

Answer：项目采用 Apache-2.0 开源协议，允许个人、企业免费使用、修改和私有化部署，可用于商业项目内部评测场景，无需额外授权费用。

Question 2：是否可以接入本地开源大模型而非在线API模型？

Answer：完全支持，框架预留模型接入接口，可适配本地部署的 Llama、Qwen、DeepSeek 等各类开源大模型，离线完成整套评测流程。

Question 3：新手没有代码基础，能不能正常使用该项目？

Answer：可以，依托 Web 前端界面和 NL2Eval 自然语言评测能力，无需编写任何代码，仅通过文字描述评测需求即可完成全部操作。

Question 4：评测任务中途关闭终端，是否需要重新开始？

Answer：框架基于 LangGraph 做状态管理，支持断点续跑，中断后重新启动服务可继续未完成的评测任务，无需从头执行。

Question 5：能否新增自定义的行业专属评测数据集？

Answer：支持，项目架构预留自定义数据集接入入口，按照规范格式导入私有数据集后，即可配置为专属评测任务使用。

八、相关链接

GitHub 源码地址：https://github.com/OpenDCAI/One-Eval

九、总结

One-Eval 作为一款面向大模型领域的开源智能评测框架，以自然语言驱动评测为核心亮点，整合了主流中英文评测基准，构建了从需求输入到报告输出的全链路自动化流程，同时配备可视化 Web 操作界面与高可扩展架构，大幅降低了大模型评测的技术门槛与操作成本。它兼顾新手简易使用与专业场景定制扩展需求，适配科研、企业研发、模型选型、教学实训等多元场景，凭借低门槛、全自动化、易部署、可私有化的优势，成为轻量化大模型评测领域实用性极强的开源工具。