LightEval 工具
- LightEval 是一个专注于 LLM 评估的开源工具库
- 它提供了标准化的评估框架,支持模型性能测试、对比分析及结果可视化,帮助开发者更高效地衡量模型能力
- 以下是 LightEval 主要能力:
- 多维度评估指标 :覆盖知识理解、推理能力、语言生成质量等多个维度
- 丰富测试数据集 :内置多个公开测试集,并支持自定义数据集扩展
- 模型兼容性 :支持主流LLM模型的直接接入与评估
- 结果可视化 :提供直观的图表展示,便于分析模型优势与不足
LightEval 代码示例
- 一个简单的代码示例
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31from lighteval import Evaluator, load_dataset
# 1. 加载评估数据集(内置或自定义)
dataset = load_dataset("ceval") # 加载C-Eval中文能力测试数据集
# 2. 初始化评估器(支持多个评估维度)
evaluator = Evaluator(metrics=["accuracy", "f1_score", "perplexity"])
# 3. 准备待评估模型(示例使用Hugging Face模型)
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "gpt2" # 替换为实际模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
# 4. 定义预测函数(根据模型输入输出格式调整)
def predict_fn(question):
inputs = tokenizer(question, return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
# 5. 执行评估
results = evaluator.evaluate(
dataset=dataset,
model_predict_fn=predict_fn,
batch_size=8, # 可调整参数
verbose=True
)
# 6. 查看并可视化结果
print("评估结果:", results)
evaluator.plot_results() # 生成评估报告图表
评估工具-OpenCompass
- OpenCompass 是上海人工智能实验室开源的大模型评测平台,涵盖学科、语言、知识、理解、推理等五大评测维度,可全面评估大模型能力
- OpenCompass 支持在线查看榜单,在线参与评测竞技
- OpenCompass 还开源了大模型评测工具,使用很简便,GitHub 地址:OpenCompass 项目
- 使用教程:README.md