https://github.com/haonan-li/CMMLU
HumanEval / MBPP
评估大语言模型(LLM)代码生成能力(Python)最核心的指标,通常被统称为“代码能力双标”
PASS@K 即模型生成 K 个代码样本,其中至少一个通过测试的概率)
https://github.com/haonan-li/CMMLU
HumanEval / MBPP
评估大语言模型(LLM)代码生成能力(Python)最核心的指标,通常被统称为“代码能力双标”
PASS@K 即模型生成 K 个代码样本,其中至少一个通过测试的概率)