General365:美团开源AI模型思维能力测评工具,多维度核验大语言模型推理水平 General365是美团LongCat团队推出的开源大模型通用推理能力评测基准,依托原创365道核心推理试题,实现知识与推理能力分离测评,支持全品类大语言模型自动化测评打分,部署... 5小时前 AI新闻 67