OpenJudge:开源AI应用评估与优化框架 OpenJudge是一款专为AI应用设计的开源评估框架,基于Python开发,核心定位是为AI智能体、聊天机器人、多模态应用、代码生成系统等各类AI应用提供标准化、自动化、全维度的质... 4周前 AI新闻 83
OpenBench:开源大模型评估工具,支持多平台基准测试 OpenBench 是由 Groq 团队开发的开源大模型评估工具,旨在为研究人员和开发者提供一个与模型提供商无关的基准测试平台。它支持 35+ 评估套件和 30+ 模型提供商,涵盖知识、... 3个月前 AI新闻 65