整体说明
- 目前,大模型(如LLM、多模态模型等)的评测和排名主要通过一些权威的基准测试和第三方平台进行
- 本文记录并持续更新一些常见的在线排名网站和评测平台,涵盖不同领域的模型能力评估
LMSYS Chatbot Arena
- 链接:https://lmarena.ai/
- 领域:通用大模型排名
- 基于人类反馈的实时对战排名(如GPT-4、Claude、Gemini等)
- 采用Elo评分机制,反映用户偏好
- 包含闭源模型
- Chatbot Arena LLM Leaderboard: Community-driven Evaluation for Best LLM and AI chatbots
- LmArena(原LMSYS)是一个由加州大学伯克利分校SkyLab和LMSYS研究团队开发的开源平台,专注于通过众包方式评估和比较不同AI模型的性能
OpenCompass
- 链接:https://rank.opencompass.org.cn/home
- 领域:通用大模型排名、多模态模型排名、对战排名均有
- 包含豆包、Qwen、DeepSeek等
- 司南 OpenCompass 是由上海人工智能实验室(Shanghai AI Lab)推出的一个开源、中立、全面的 LLM 评测体系,旨在对各类大模型进行系统性、标准化的能力评估与排名
LiveCodeBench
- 链接:https://livecodebench.github.io/leaderboard.html
- 领域:代码能力排名
Open LLM Leaderboard (Hugging Face)
- 链接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
- 领域:通用大模型排名
- 评估开源大模型在多项任务(如ARC、HellaSwag、MMLU等)上的表现
- 涵盖模型:LLaMA、Falcon、Mistral等诸多模型,还有许多名字不出名的是基于其他模型微调后改名的
- 仅评估开源模型
Stanford HELM (Holistic Evaluation of Language Models)
- 链接:https://crfm.stanford.edu/helm/
- 领域:通用大模型排名
- 斯坦福的全面评测框架,覆盖准确性、公平性、鲁棒性等维度
- 其中可选很多评估标注,比如MMLU,Finance等
C-Eval (中文评测基准)
- 链接:https://cevalbenchmark.com/static/leaderboard.html
- 领域:中文测评
- 评估中文知识、推理能力的测试集,涵盖52个学科
- 排名包含:GPT-4、ChatGLM、通义千问等
SuperCLUE (中文通用大模型评测)
- 链接:https://www.superclueai.com/
- 领域:中文测评
- 中文版综合性评测,包括基础能力、专业任务等
MMBench
- 链接:https://mmbench.opencompass.org.cn/leaderboard
- 领域:多模态模型排名
- 评估图文理解、生成能力的基准(如GPT-4V、Gemini Vision)
GLUE/SuperGLUE
- 链接:https://gluebenchmark.com/
- 领域:自然语言理解
- 经典NLU任务评测,但近年逐渐被更大基准取代,都是一些比较老的模型评估