整体说明
- 目前,大模型(如LLM、多模态模型等)的评测和排名主要通过一些权威的基准测试和第三方平台进行
- 本文记录并持续更新一些常见的在线排名网站和评测平台,涵盖不同领域的模型能力评估
LMSYS Chatbot Arena(LMArena)
整体介绍
- 链接:https://lmarena.ai/
- 领域:通用大模型排名
- 基于人类反馈的实时对战排名(如 GPT-4、Claude、Gemini 等)
- 采用 Elo 评分机制,反映用户偏好
- 包含闭源模型
- Chatbot Arena LLM Leaderboard: Community-driven Evaluation for Best LLM and AI chatbots
- LmArena(原LMSYS)是一个由加州大学伯克利分校SkyLab和LMSYS研究团队开发的开源平台,专注于通过众包方式评估和比较不同AI模型的性能
- LMArena 是目前大家最相信的人类偏好排行榜
文本子榜详细介绍
- 对于 文本子榜,LMArena 会报告两种分数:
- 基础分(wo style control):arena.ai/zh/leaderboard/text/overall-no-style-control
- 基于模型对战,人类原始打分结果得到的 Elo Rating 分(不做任何修改)
- 风格分(w style control):arena.ai/zh/leaderboard/text/overall
- 默认是打开 Style Control 的形式:https://arena.ai/zh/leaderboard/text
- Style Control 是指在 基础分 的基础上,通过一些消偏模型将模型的回复长度、格式等对齐后得到的 “回复内容” 本身的得分
- 实践中,基础分和风格分的相对值可以看出一个模型风格的好坏来
- 如果一个模型的 基础分 > 风格分,说明模型风格不错(比如回复较短)
- 如果一个模型的 风格分 > 基础分,说明模型回复可能风格不行(比如回复偏长)
- 基础分(wo style control):arena.ai/zh/leaderboard/text/overall-no-style-control
- 从之前的经验看,LMArena 对战并不是严格遵循相似能力模型对战,而是更多的让部分模型参战(比如靠前的 Gemini 系列/Claude 系列等的参战频率就比较高),至少看着模型的 vote 数量是不完全对齐的
- LMArena 有很多细分的榜单,比如 Text 榜单下还有类似 Arena Hard V2 中提到的 Hard Prompts 榜单和 Creative Writing 榜单等
文本子榜 AutoEval & 人工测评
- 可以提交自己的模型(付钱)让对方进行打分(提交包括模型名称,URL,API Key 等信息即可),AutoEval 提交后大概几个小时可以得到结果,一般包含三个文件:
autoeval_leaderboards__{model_name}__xxx.html: 包含参与本次对战的模型整体评分autoeval_report__{model_name}__xxx.html: 包含参与本次对战的报告细节分数{model_name}__1.jsonl: 包含本次对战的 Prompt 和 Response 详细细节
- 人工测评:将模型真实部署到线上共人类真实响应,需要的时间较久,收费也更高
- 注:不同榜单的收费也不一样
OpenCompass
- 链接:https://rank.opencompass.org.cn/home
- 领域:通用大模型排名、多模态模型排名、对战排名均有
- 包含豆包、Qwen、DeepSeek等
- 司南 OpenCompass 是由上海人工智能实验室(Shanghai AI Lab)推出的一个开源、中立、全面的 LLM 评测体系,旨在对各类大模型进行系统性、标准化的能力评估与排名
LiveCodeBench
- 链接:https://livecodebench.github.io/leaderboard.html
- 领域:代码能力排名
Open LLM Leaderboard (Hugging Face)
- 链接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
- 领域:通用大模型排名
- 评估开源大模型在多项任务(如ARC、HellaSwag、MMLU等)上的表现
- 涵盖模型:LLaMA、Falcon、Mistral等诸多模型,还有许多名字不出名的是基于其他模型微调后改名的
- 仅评估开源模型
Stanford HELM (Holistic Evaluation of Language Models)
- 链接:https://crfm.stanford.edu/helm/
- 领域:通用大模型排名
- 斯坦福的全面评测框架,覆盖准确性、公平性、鲁棒性等维度
- 其中可选很多评估标注,比如MMLU,Finance等
C-Eval (中文评测基准)
- 链接:https://cevalbenchmark.com/static/leaderboard.html
- 领域:中文测评
- 评估中文知识、推理能力的测试集,涵盖52个学科
- 排名包含:GPT-4、ChatGLM、通义千问等
SuperCLUE (中文通用大模型评测)
- 链接:https://www.superclueai.com/
- 领域:中文测评
- 中文版综合性评测,包括基础能力、专业任务等
MMBench
- 链接:https://mmbench.opencompass.org.cn/leaderboard
- 领域:多模态模型排名
- 评估图文理解、生成能力的基准(如GPT-4V、Gemini Vision)
GLUE/SuperGLUE
- 链接:https://gluebenchmark.com/
- 领域:自然语言理解
- 经典NLU任务评测,但近年逐渐被更大基准取代,都是一些比较老的模型评估