LLM Benchmark
是什么?
大模型评测基准(LLM Benchmark)是一套标准化的测试集和评估方法,用于衡量大语言模型在不同任务上的性能。
主流评测集
SWE-bench LiveCodeBench LiveBench LM Arena MMLU-Pro ARC-AGI
参考
https://livecodebench.github.io
https://lmarena.ai/zh/leaderboard
大模型评测基准(LLM Benchmark)是一套标准化的测试集和评估方法,用于衡量大语言模型在不同任务上的性能。
SWE-bench LiveCodeBench LiveBench LM Arena MMLU-Pro ARC-AGI
https://livecodebench.github.io
https://lmarena.ai/zh/leaderboard