One-Eval:开源大模型智能评测框架,自然语言驱动全自动基准测评 One-Eval 是由北大 OpenDCAI 团队开源打造的大语言模型一站式智能评测框架,基于智能工作流与 Agent 思想设计,主打自然语言驱动自动化评测核心能力。 2小时前 AI新闻 65