CS Notes

❯

❯

benchmark

2026年3月20日1分钟阅读

https://github.com/haonan-li/CMMLU

HumanEval / MBPP
评估大语言模型（LLM）代码生成能力（Python）最核心的指标，通常被统称为“代码能力双标”

PASS@K 即模型生成 K 个代码样本，其中至少一个通过测试的概率）

关系图谱

Created with Quartz v1.0.0 © 2026

GitHub