NLP——LLM排行榜

链接：https://lmarena.ai/
领域：通用大模型排名
基于人类反馈的实时对战排名（如 GPT-4、Claude、Gemini 等）
采用 Elo 评分机制，反映用户偏好
包含闭源模型
Chatbot Arena LLM Leaderboard: Community-driven Evaluation for Best LLM and AI chatbots
LmArena（原LMSYS）是一个由加州大学伯克利分校SkyLab和LMSYS研究团队开发的开源平台，专注于通过众包方式评估和比较不同AI模型的性能
LMArena 是目前大家最相信的人类偏好排行榜

对于文本子榜，LMArena 会报告两种分数：
- 基础分（wo style control）：arena.ai/zh/leaderboard/text/overall-no-style-control
  - 基于模型对战，人类原始打分结果得到的 Elo Rating 分（不做任何修改）
- 风格分（w style control）：arena.ai/zh/leaderboard/text/overall
  - 默认是打开 Style Control 的形式：https://arena.ai/zh/leaderboard/text
  - Style Control 是指在基础分的基础上，通过一些消偏模型将模型的回复长度、格式等对齐后得到的 “回复内容” 本身的得分
- 实践中，基础分和风格分的相对值可以看出一个模型风格的好坏来
  - 如果一个模型的基础分 > 风格分，说明模型风格不错（比如回复较短）
  - 如果一个模型的风格分 > 基础分，说明模型回复可能风格不行（比如回复偏长）
从之前的经验看，LMArena 对战并不是严格遵循相似能力模型对战，而是更多的让部分模型参战（比如靠前的 Gemini 系列/Claude 系列等的参战频率就比较高），至少看着模型的 vote 数量是不完全对齐的
LMArena 有很多细分的榜单，比如 Text 榜单下还有类似 Arena Hard V2 中提到的 Hard Prompts 榜单和 Creative Writing 榜单等

可以提交自己的模型（付钱）让对方进行打分（提交包括模型名称，URL，API Key 等信息即可），AutoEval 提交后大概几个小时可以得到结果，一般包含三个文件：
- autoeval_leaderboards__{model_name}__xxx.html: 包含参与本次对战的模型整体评分
- autoeval_report__{model_name}__xxx.html: 包含参与本次对战的报告细节分数
- {model_name}__1.jsonl: 包含本次对战的 Prompt 和 Response 详细细节
人工测评：将模型真实部署到线上共人类真实响应，需要的时间较久，收费也更高
注：不同榜单的收费也不一样

链接：https://rank.opencompass.org.cn/home
领域：通用大模型排名、多模态模型排名、对战排名均有
包含豆包、Qwen、DeepSeek等
司南 OpenCompass 是由上海人工智能实验室（Shanghai AI Lab）推出的一个开源、中立、全面的 LLM 评测体系，旨在对各类大模型进行系统性、标准化的能力评估与排名