NLP——LLM排行榜


整体说明

  • 目前,大模型(如LLM、多模态模型等)的评测和排名主要通过一些权威的基准测试和第三方平台进行
  • 本文记录并持续更新一些常见的在线排名网站和评测平台,涵盖不同领域的模型能力评估

LMSYS Chatbot Arena(LMArena)

整体介绍

  • 链接:https://lmarena.ai/
  • 领域:通用大模型排名
  • 基于人类反馈的实时对战排名(如 GPT-4、Claude、Gemini 等)
  • 采用 Elo 评分机制,反映用户偏好
  • 包含闭源模型
  • Chatbot Arena LLM Leaderboard: Community-driven Evaluation for Best LLM and AI chatbots
  • LmArena(原LMSYS)是一个由加州大学伯克利分校SkyLab和LMSYS研究团队开发的开源平台,专注于通过众包方式评估和比较不同AI模型的性能
  • LMArena 是目前大家最相信的人类偏好排行榜

文本子榜详细介绍

  • 对于 文本子榜,LMArena 会报告两种分数:
    • 基础分(wo style control):arena.ai/zh/leaderboard/text/overall-no-style-control
      • 基于模型对战,人类原始打分结果得到的 Elo Rating 分(不做任何修改)
    • 风格分(w style control):arena.ai/zh/leaderboard/text/overall
      • 默认是打开 Style Control 的形式:https://arena.ai/zh/leaderboard/text
      • Style Control 是指在 基础分 的基础上,通过一些消偏模型将模型的回复长度、格式等对齐后得到的 “回复内容” 本身的得分
    • 实践中,基础分和风格分的相对值可以看出一个模型风格的好坏来
      • 如果一个模型的 基础分 > 风格分,说明模型风格不错(比如回复较短)
      • 如果一个模型的 风格分 > 基础分,说明模型回复可能风格不行(比如回复偏长)
  • 从之前的经验看,LMArena 对战并不是严格遵循相似能力模型对战,而是更多的让部分模型参战(比如靠前的 Gemini 系列/Claude 系列等的参战频率就比较高),至少看着模型的 vote 数量是不完全对齐的
  • LMArena 有很多细分的榜单,比如 Text 榜单下还有类似 Arena Hard V2 中提到的 Hard Prompts 榜单和 Creative Writing 榜单等

文本子榜 AutoEval & 人工测评

  • 可以提交自己的模型(付钱)让对方进行打分(提交包括模型名称,URL,API Key 等信息即可),AutoEval 提交后大概几个小时可以得到结果,一般包含三个文件:
    • autoeval_leaderboards__{model_name}__xxx.html: 包含参与本次对战的模型整体评分
    • autoeval_report__{model_name}__xxx.html: 包含参与本次对战的报告细节分数
    • {model_name}__1.jsonl: 包含本次对战的 Prompt 和 Response 详细细节
  • 人工测评:将模型真实部署到线上共人类真实响应,需要的时间较久,收费也更高
  • 注:不同榜单的收费也不一样

OpenCompass

  • 链接:https://rank.opencompass.org.cn/home
  • 领域:通用大模型排名、多模态模型排名、对战排名均有
  • 包含豆包、Qwen、DeepSeek等
  • 司南 OpenCompass 是由上海人工智能实验室(Shanghai AI Lab)推出的一个开源、中立、全面的 LLM 评测体系,旨在对各类大模型进行系统性、标准化的能力评估与排名

LiveCodeBench


Open LLM Leaderboard (Hugging Face)

  • 链接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
  • 领域:通用大模型排名
  • 评估开源大模型在多项任务(如ARC、HellaSwag、MMLU等)上的表现
  • 涵盖模型:LLaMA、Falcon、Mistral等诸多模型,还有许多名字不出名的是基于其他模型微调后改名的
  • 仅评估开源模型

Stanford HELM (Holistic Evaluation of Language Models)

  • 链接:https://crfm.stanford.edu/helm/
  • 领域:通用大模型排名
  • 斯坦福的全面评测框架,覆盖准确性、公平性、鲁棒性等维度
  • 其中可选很多评估标注,比如MMLU,Finance等

C-Eval (中文评测基准)


SuperCLUE (中文通用大模型评测)


MMBench


GLUE/SuperGLUE

  • 链接:https://gluebenchmark.com/
  • 领域:自然语言理解
  • 经典NLU任务评测,但近年逐渐被更大基准取代,都是一些比较老的模型评估