NLP——LLM相关数据集


Tulu3

  • 原始论文:(Tulu3)Tülu 3: Pushing Frontiers in Open Language Model Post-Training
  • Tulu3 数据集是艾伦人工智能研究所(Ai2)为训练Tulu3模型而创建的大规模多语言文本数据集
  • Tulu3 数据集包含 939,344 个样本,覆盖多种语言和任务,数据来源广泛,包括 Coconot、Flan v2、No Robots 等
  • Tulu3 数据集支持语言模型的训练和微调,特别是在多语言环境下,其结构包含标准的指令调整数据点,如 ID 等
  • Tulu3 数据集的意义在于为研究人员和开发人员提供了丰富的语言资源,以增强和优化多语言人工智能模型的性能,可用于教育和研究目的,但需遵循特定的许可协议

lmarena-ai/arena-human-preference-140k

  • HuggingFace:huggingface.co/datasets/lmarena-ai/arena-human-preference-140k
  • Blog:A Deep Dive into Recent Arena Data, 20250731
  • lmarena-ai/arena-human-preference-140k 数据集包含文本类别的用户投票(vote)数据,累计大约 14W 数据
    • 每行代表一次投票,记录用户在特定对话场景下对两个模型(model_a 和 model_b)的评判结果,同时包含完整对话历史及元数据
  • 核心字段说明如下:
    • id:每次投票/每行数据的唯一反馈ID
    • evaluation_session_id:每次评估会话的唯一 ID,一个会话可包含多次独立投票/评估
      • 经测试,同一个 evaluation_session_id 对应的模型可能不同,如何理解?
    • evaluation_order:当前投票的评估顺序(序号)
    • winner:对决结果,取值为
      • model_a(模型 A 获胜)
      • model_b(模型 B 获胜)
      • tie(平局)
      • both_bad(两者均差)
    • conversation_a/conversation_b:当前评估轮次中两个模型对应的完整对话内容
    • full_conversation:完整对话历史,包含上下文提示词及所有先前评估轮次的模型回复
      • 注意:每次投票后会重新采样模型,因此完整上下文中的响应模型会有所不同
      • 问题:发现多轮数据中,两个模型的上下文是分离的,所以这部分训练时相当于是多轮信号
    • conv_metadata:聚合元数据(含格式标记、令牌计数),用于风格控制
    • category_tag:标注标签,包括数学(math)、创意写作(creative writing)、高难度提示词(hard prompts)、指令遵循(instruction following)四类
    • is_code:对话是否涉及代码(布尔值)
  • 其他分析:
    • 大部分数据是英语,约 51.8%
    • 中文简体占比较少,仅 5%
    • 中文繁体占比,仅 0.65%
  • 注:这个数据集是用作 Reward Model 的优秀模型,也可以用于 SFT 和 DPO 等
    • 用作 SFT 时,多轮数据也可以使用;用作 Reward Model 和 DPO 时,多轮数据暂无法使用