大模型评估

大模型评估新闻、工具、教程及资源推荐

OpenJudge是一款专为AI应用设计的开源评估框架，基于Python开发，核心定位是为AI智能体、聊天机器人、多模态应用、代码生成系统等各类AI应用提供标准化、自动化、全维度的质...

OpenBench 是由 Groq 团队开发的开源大模型评估工具，旨在为研究人员和开发者提供一个与模型提供商无关的基准测试平台。它支持 35+ 评估套件和 30+ 模型提供商，涵盖知识、...