基准测试 | 得分 | 备注 |
GSM8K | 72.3 | 数学推理,0-shot CoT 测试 |
MATH | 25.7 | 数学问题,0-shot CoT 测试 |
BBH | 66.1 | 逻辑推理,3-shot 测试 |
MMLU | 61.4 | 多任务语言理解,0-shot 测试 |
C-Eval | 69.0 | 中文理解,0-shot 测试 |
CMMLU | 67.5 | 中文多任务,0-shot 测试 |
MBPP | 52.4 | Python 代码生成,Pass@1 |
AGIEval | 53.7 | 综合评估,0-shot 测试 |