欢迎来到 Jiahong 的技术博客
包含操作系统、机器学习、深度学习、强化学习、NLP 和 LLM 等 计算机/AI 领域的学习笔记与实践总结
📊 共计 619 篇技术文章 | 🏷️ 50 个分类领域
人工智能 & 机器学习
广告 & 推荐
编程语言
系统 & 运维
数学
开发工具
其他
💡 提示:点击任意卡片即可查看该分类下的所有文章
📧 联系方式:JoeZJiahong@Foxmail.com | 🔗 GitHub: @JoeZJH
凡事预则立,不预则废
包含操作系统、机器学习、深度学习、强化学习、NLP 和 LLM 等 计算机/AI 领域的学习笔记与实践总结
📊 共计 619 篇技术文章 | 🏷️ 50 个分类领域
💡 提示:点击任意卡片即可查看该分类下的所有文章
📧 联系方式:JoeZJiahong@Foxmail.com | 🔗 GitHub: @JoeZJH
注:本文包含 AI 辅助创作
Paper Summary







原始英文原文:
1 | You are an expert meta-evaluator analyzing the alignment of evaluation criteria. |
中文版:
1 | 你是一个专家级元评估者,负责分析评估标准的一致性 |
英文原版:
1 | You are an expert meta-evaluator analyzing the nature of evaluation criteria. |
中文版:
1 | 你是一个专家级元评估者,负责分析评估标准的性质 |
原始英文版:
1 | Please act as an impartial judge and evaluate the quality of the responses provided by two AI assistants to the user question displayed below. You should choose the assistant that follows the user’s instructions and answers the user’s question better. Your evaluation should consider as many factors as possible. |
中文版:
1 | 请扮演一个公正的评判者,评估两个 AI 助手对下面显示的用户问题的回答质量。你应该选择那个更好地遵循了用户指令并回答了用户问题的助手。你的评估应考虑到尽可能多的因素。通过比较两个回答开始你的评估,并提供全面的推理。避免任何位置偏差,确保回答呈现的顺序不影响你的决定。不要让回答的长度影响你的评估。不要偏袒某些助手的名称。尽可能保持客观。在提供你的推理之后,严格按照以下格式输出你的最终判决:如果助手 A 更好,输出 [[A]];如果助手 B 更好,输出 [[B]] |
1 | 你是一个专门从事 \*\*指令遵循\*\* 评估的 LLM 专家 |
1 | 请扮演一个 \*\*公正的评判者\*\* 和 \*\*严格的评估者\*\* |
1 | 你是一个 Rubric 基准测试的专家评估者。你的任务是确定一个生成的“候选 Rubric 规则”是否与任何“ Golden 标准规则”在语义上等价 |
注:本文包含 AI 辅助创作
Paper Summary






torch.topk 稍慢但具有确定性torch.topk 产生更一致的输出,并带来显著的 RL 收益torch.topk 作为默认的 top-k 操作符.detach()):



作者在 Telecom 和 Retail 领域添加了小的 Prompt 调整,避免因用户过早终止而导致的失败
优化的 Prompt 如图 12 和图 13 所示,这些优化的 Prompt 作为系统 Prompt 的一部分被整合进来
Figure 12: The optimized user prompt for \(\tau^{2}\)-Bench Telecom
1 | SYSTEM_PROMPT = """" |
Figure 13: The optimized user prompt for \(\tau^{2}\)-Bench Retail
1 | # Rules: |
Data

Data Distribution by Coding Languages

Data sample
每个测试用例由三个部分组成:Task、Checklist 和专用环境 (Dedicated Environment)。下面是一个具有代表性的测试用例示例:
1 | Task: Develop an online drawing tool that includes a brush, an eraser, a white canvas, and a save button. The brush color and thickness should be selectable via buttons on the left. |
中文版:
1 | **Task** :开发一个在线绘图工具,包含画笔、橡皮擦、白色画布和一个保存按钮。画笔颜色和粗细应可通过左侧按钮选择。用户可通过点击并拖动鼠标在画布上绘图。橡皮擦大小应可通过左侧按钮选择。用户可通过点击并拖动鼠标在画布上擦除内容。绘图完成后,点击“保存”按钮应允许用户将图像保存到本地。请使用 React 框架在当前目录中实现此功能 |
Data Construction and Validation ,作者实施了一个严格的四阶段流程来确保数据质量:
注:本文包含 AI 辅助创作
参考链接:
注:暂时仅关注 Post-training 部分
Paper Summary


注:本文包含 AI 辅助创作
Paper Summary
<tool_call></tool_call>)并优化全局计划:
1 | 您是一位专业的 Rubric 写作专家。您的任务是基于给定的 **report-generation query** 生成一套连贯且自包含的评估 Rubrics,该 Rubrics 将用于评估生成响应(即报告)的质量 |
1 | 您是一个精确且公正的评分模型 |
1 | 您是一个准确且公正的评分模型(Reward Model)。您的任务是评估 **Rubrics**(evaluation criteria)的质量。Rubric 是用于评估模型生成答案质量的一套标准。您需要判断给定的 Rubric 是否合理、全面以及与任务目标对齐 |
System Prompt原始论文英文版(大致重写翻译为中文)
1 | 您是一位能够生成高质量深度研究报告的智能助手。您的目标是通过多个“计划-执行-观察”循环来解决复杂的用户问题 |
User Prompt1 | <user_input> { { query } } </user_input> |
System Prompt1 | 您是一位信息处理专家,负责维护一个“long-term memory”数据库。您当前正处于分块阅读长文本的多步骤过程中 |
User Prompt1 | <user_input> { { query } } </user_input> |
System Prompt1 | 您是一位专业的结构化分析报告写作助手,负责维护一个基于用户输入持续更新的 <report>。您的目标是基于工具提供的信息 **增量更新** 现有的 <report>,**而不引入外部信息** |
User Prompt1 | <user_input> {query} </user_input> |
1 | 1. 仔细阅读和分析用户的问题,思考用户需要什么信息 |
1 | 请扮演一个公正的法官,评估两位 AI 助手对下面显示的用户问题所提供回答的质量。您应该选择更能遵循用户指示、更好地回答用户问题的助手。您的评估应考虑诸如帮助性、相关性、准确性、深度、创造性和回答的详细程度等因素。在开始评估时,请先比较两个回答,并提供简短的解释。避免任何位置偏见,并确保回答的呈现顺序不影响您的决定。不要让回答的长度影响您的评估。不要偏袒特定助手的名称。尽可能客观 |
1 | 请扮演一个公正的法官,评估 AI 助手对下面显示的用户问题所提供回答的质量。您的评估应考虑诸如帮助性、相关性、准确性、深度、创造性和回答的详细程度等因素。您应该给出一个 1 到 10 的分数,其中 1 是最差,10 是最好 |



1 | { |
注:本文包含 AI 辅助创作
Paper Summary







作者用一个原子分解流程来构建原子理由基准,将原始的评估者反馈转化为具体的检查清单项目
如图 6 所示,该流程接收完整的评估上下文,保留基于证据的具体要点,解决冲突,并移除冗余,从而生成一个原子理由列表以及被丢弃的主观或无效陈述
Figure6, Decomposition Prompt (核心:指示模型提取具体的、基于证据的评估要点,同时过滤掉模糊的、主观的或相互矛盾的陈述)
1 | System Instruction: You are an assistant for extracting and concretizing key points. Based on the “Evaluation Content”, structurally summarize the “Brief Evaluation Summary”, |
1 | **System Instruction:** 你是一个用于提取和具体化关键点的助手 |



使用 GRPO 算法训练 GenRM,关键超参数如下:
每个提示采样 \(n = 8\) 个 Response,最大生成长度为 12K Token ,最大提示长度为 8K Token
正向和负向裁剪比率均设置为 \(2\times 10^{-4}\)
模型总共训练 2 个 epoch
用于 GenRM 的训练 Prompt 如图 13 所示

(论文标题有错)GenRM Training Prompt(文字版: Prompt 模型需要比较两个 Response 并提供结构化的评估理由以及最终的 Pairwise 判断)
1 | 你将看到一个对话上下文,随后是一个用户 Query 和两个 Response。你需要预测哪个 Response 将更受人类专家标注员的青睐。你可以考虑任何你认为合适的标准。尽力而为,仔细思考,深入分析 Response,并提供最终裁决 |
Figure 14:Creative-writing pairwise evaluation annotation instructions


注:本文包含 AI 辅助创作
Paper Summary


| 模块 | 参数 | 值 | 模块 | 参数 | 值 |
|---|---|---|---|---|---|
| Rubric Generator | #generations | 6 | Judge | #generations | 7 |
| Cutoff Length | 512 | Cutoff Length | 1024 | ||
| Batch Size | 288 | Batch Size | 224 | ||
| Optimizer | AdamW | Optimizer | AdamW | ||
| Learning Rate | 1e-6 | Learning Rate | 1e-6 | ||
| Temperature | 1.0 | Temperature | 1.0 | ||
| #iterations | 2 | #iterations | 2 | ||
| Epochs | 1 | Epochs | 1 | ||
| εhigh | 0.28 | εhigh | 0.28 | ||
| εlow | 0.2 | εlow | 0.2 | ||
| β | 0.001 | β | 0.001 |
| 方法 | 参数 | 值 | 方法 | 参数 | 值 |
|---|---|---|---|---|---|
| DPO | Cutoff Length | 2048 | GRPO | #generations | 6 |
| Batch Size | 64 | Cutoff Length | 2048 | ||
| Optimizer | AdamW | Batch Size | 288 | ||
| Learning Rate | 8e-7 | Optimizer | AdamW | ||
| Epochs | 1 | Learning Rate | 5e-7 | ||
| beta | 0.1 | Temperature | 1.0 | ||
| SFT mixing weight | 0.2 | #iterations | 2 | ||
| // | // | Epochs | 1 | ||
| // | // | εhigh | 0.28 | ||
| // | // | εlow | 0.2 | ||
| // | // | β | 0.001 |
| 模块 | 参数 | 值 | 模块 | 参数 | 值 |
|---|---|---|---|---|---|
| Rubric Generator | Maximum Tokens | 1024 | Judge | Maximum Tokens | 4096 |
| Temperature | 0.0 | Temperature | 1.0 | ||
| Top-P | 1.0 | Top-P | 1.0 | ||
| Top-K | -1 | Top-K | -1 | ||
| Enable-thinking | False | Enable-thinking | False |
| Func. | Promo. | Non-Fic. | Fiction | Funny | Poetry | Script | Role | AVG | |
|---|---|---|---|---|---|---|---|---|---|
| LLM as Judge (black-box model) | |||||||||
| Claude-4-Opus-thinking | 65.7 | 64.3 | 64.1 | 60.1 | 54.2 | 64.0 | 43.5 | 51.7 | 61.0 |
| OpenAI-o4-mini | 58.3 | 58.6 | 60.9 | 55.5 | 53.2 | 68.0 | 30.4 | 55.2 | 56.6 |
| Gemini-2.5-Flash | 59.1 | 57.7 | 62.5 | 59.8 | 52.2 | 56.0 | 34.8 | 51.7 | 57.5 |
| White-box Reward Models | |||||||||
| Skywork-Llama-3.1-8B | 53.6 | 56.3 | 60.6 | 49.0 | 52.2 | 56.0 | 65.2 | 41.4 | 53.1 |
| Skywork-Gemma-2-27B | 49.0 | 53.9 | 59.6 | 33.9 | 55.1 | 36.0 | 21.7 | 51.7 | 46.8 |
| RM-R1-DeepSeek-Qwen-7B | 62.5 | 55.1 | 59.2 | 55.4 | 58.0 | 56.0 | 65.2 | 41.4 | 57.4 |
| RM-R1-Qwen2.5-7B | 67.0 | 57.2 | 53.9 | 60.0 | 54.6 | 72.0 | 47.8 | 65.5 | 59.8 |
| RRM-7B | 50.0 | 35.3 | 50.0 | 49.5 | 38.5 | 36.4 | 45.5 | 53.8 | 44.7 |
| Rubric-based Models | |||||||||
| Rubric-RM | 58.3 | 58.5 | 57.9 | 58.3 | 58.0 | 76.0 | 47.8 | 55.2 | 60.3 |
| Rubric-ARM | 67.8 | 63.1 | 65.8 | 60.9 | 61.0 | 80.0 | 47.8 | 55.2 | 63.2 |
中文版:
1 | 你的任务是从用户的请求中提取一组评分细则(rubric-style)式的指令。这些细则将用作评估标准,以检查 Response 是否完全满足请求。每个细则项必须是一个通用原则。如果任何细则仍然包含特定主题的引用(例如,名称、地点、神话、数字、历史事实),则自动视为无效 |
中文版:
1 | 你是一个公平公正的 Judge。你的任务是根据给定的指令和一个评分细则(rubric)来评估 'Response A' 和 'Response B'。你将按照下面概述的 distinct phases(不同阶段)进行此次评估 |
注:本文包含 AI 辅助创作
Paper Summary
kimi-k2.5-thinking 和 kimi-k2.5-instant;



temperature = 1.0,top-p = 0.95,上下文长度为 256k tokens

1 | You are Kimi, today’s date: DATE. |
max_steps_per_episode = 100 temperature = 0,WebArena 的 temperature = 0.1作者为所有计算机使用任务使用统一的系统提示:
1 | You are a GUI agent. You are given an instruction, a screenshot of the screen and your previous interactions with the computer. |
1 | { |
1 | You are Kimi, a professional and meticulous expert in information collection and organization. |





注:本文包含 AI 辅助创作
Paper Summary
pass@k

pass@k 性能以衡量基础推理能力,但这仅作为参考,而非主要优化目标





注:本文包含 AI 辅助创作
Paper Summary








