LLM Benchmark

是什么？

大模型评测基准（LLM Benchmark）是一套标准化的测试集和评估方法，用于衡量大语言模型在不同任务上的性能。

主流评测集

SWE-bench LiveCodeBench LiveBench LM Arena MMLU-Pro ARC-AGI

参考

https://www.swebench.com/

https://livecodebench.github.io

https://livebench.ai

https://lmarena.ai/zh/leaderboard

https://artificialanalysis.ai/evaluations/mmlu-pro

https://arcprize.org/leaderboard