欢迎来到 Jiahong 的技术博客
包含操作系统、机器学习、深度学习、强化学习、NLP 和 LLM 等 计算机/AI 领域的学习笔记与实践总结
📊 共计 611 篇技术文章 | 🏷️ 49 个分类领域
人工智能 & 机器学习
广告 & 推荐
编程语言
系统 & 运维
数学
开发工具
其他
💡 提示:点击任意卡片即可查看该分类下的所有文章
📧 联系方式:JoeZJiahong@Foxmail.com | 🔗 GitHub: @JoeZJH
凡事预则立,不预则废
包含操作系统、机器学习、深度学习、强化学习、NLP 和 LLM 等 计算机/AI 领域的学习笔记与实践总结
📊 共计 611 篇技术文章 | 🏷️ 49 个分类领域
💡 提示:点击任意卡片即可查看该分类下的所有文章
📧 联系方式:JoeZJiahong@Foxmail.com | 🔗 GitHub: @JoeZJH
注:本文包含 AI 辅助创作
Paper Summary





torch.topk 稍慢但具有确定性torch.topk 产生更一致的输出,并带来显著的 RL 收益torch.topk 作为默认的 top-k 操作符.detach()):



作者在 Telecom 和 Retail 领域添加了小的 Prompt 调整,避免因用户过早终止而导致的失败
优化的 Prompt 如图 12 和图 13 所示,这些优化的 Prompt 作为系统 Prompt 的一部分被整合进来
Figure 12: The optimized user prompt for \(\tau^{2}\)-Bench Telecom
1 | SYSTEM_PROMPT = """" |
Figure 13: The optimized user prompt for \(\tau^{2}\)-Bench Retail
1 | # Rules: |
Data

Data Distribution by Coding Languages

Data sample
每个测试用例由三个部分组成:Task、Checklist 和专用环境 (Dedicated Environment)。下面是一个具有代表性的测试用例示例:
1 | Task: Develop an online drawing tool that includes a brush, an eraser, a white canvas, and a save button. The brush color and thickness should be selectable via buttons on the left. |
中文版:
1 | **Task** :开发一个在线绘图工具,包含画笔、橡皮擦、白色画布和一个保存按钮。画笔颜色和粗细应可通过左侧按钮选择。用户可通过点击并拖动鼠标在画布上绘图。橡皮擦大小应可通过左侧按钮选择。用户可通过点击并拖动鼠标在画布上擦除内容。绘图完成后,点击“保存”按钮应允许用户将图像保存到本地。请使用 React 框架在当前目录中实现此功能 |
Data Construction and Validation ,作者实施了一个严格的四阶段流程来确保数据质量:
注:本文包含 AI 辅助创作
参考链接:
注:暂时仅关注 Post-training 部分
Paper Summary


注:本文包含 AI 辅助创作
Paper Summary
<tool_call></tool_call>)并优化全局计划:
1 | 您是一位专业的 Rubric 写作专家。您的任务是基于给定的 **report-generation query** 生成一套连贯且自包含的评估 Rubrics,该 Rubrics 将用于评估生成响应(即报告)的质量 |
1 | 您是一个精确且公正的评分模型 |
1 | 您是一个准确且公正的评分模型(Reward Model)。您的任务是评估 **Rubrics**(evaluation criteria)的质量。Rubric 是用于评估模型生成答案质量的一套标准。您需要判断给定的 Rubric 是否合理、全面以及与任务目标对齐 |
System Prompt原始论文英文版(大致重写翻译为中文)
1 | 您是一位能够生成高质量深度研究报告的智能助手。您的目标是通过多个“计划-执行-观察”循环来解决复杂的用户问题 |
User Prompt1 | <user_input> { { query } } </user_input> |
System Prompt1 | 您是一位信息处理专家,负责维护一个“long-term memory”数据库。您当前正处于分块阅读长文本的多步骤过程中 |
User Prompt1 | <user_input> { { query } } </user_input> |
System Prompt1 | 您是一位专业的结构化分析报告写作助手,负责维护一个基于用户输入持续更新的 <report>。您的目标是基于工具提供的信息 **增量更新** 现有的 <report>,**而不引入外部信息** |
User Prompt1 | <user_input> {query} </user_input> |
1 | 1. 仔细阅读和分析用户的问题,思考用户需要什么信息 |
1 | 请扮演一个公正的法官,评估两位 AI 助手对下面显示的用户问题所提供回答的质量。您应该选择更能遵循用户指示、更好地回答用户问题的助手。您的评估应考虑诸如帮助性、相关性、准确性、深度、创造性和回答的详细程度等因素。在开始评估时,请先比较两个回答,并提供简短的解释。避免任何位置偏见,并确保回答的呈现顺序不影响您的决定。不要让回答的长度影响您的评估。不要偏袒特定助手的名称。尽可能客观 |
1 | 请扮演一个公正的法官,评估 AI 助手对下面显示的用户问题所提供回答的质量。您的评估应考虑诸如帮助性、相关性、准确性、深度、创造性和回答的详细程度等因素。您应该给出一个 1 到 10 的分数,其中 1 是最差,10 是最好 |



1 | { |
注:本文包含 AI 辅助创作
Paper Summary







作者用一个原子分解流程来构建原子理由基准,将原始的评估者反馈转化为具体的检查清单项目
如图 6 所示,该流程接收完整的评估上下文,保留基于证据的具体要点,解决冲突,并移除冗余,从而生成一个原子理由列表以及被丢弃的主观或无效陈述
Figure6, Decomposition Prompt (核心:指示模型提取具体的、基于证据的评估要点,同时过滤掉模糊的、主观的或相互矛盾的陈述)
1 | System Instruction: You are an assistant for extracting and concretizing key points. Based on the “Evaluation Content”, structurally summarize the “Brief Evaluation Summary”, |
1 | **System Instruction:** 你是一个用于提取和具体化关键点的助手 |



使用 GRPO 算法训练 GenRM,关键超参数如下:
每个提示采样 \(n = 8\) 个 Response,最大生成长度为 12K Token ,最大提示长度为 8K Token
正向和负向裁剪比率均设置为 \(2\times 10^{-4}\)
模型总共训练 2 个 epoch
用于 GenRM 的训练 Prompt 如图 13 所示

(论文标题有错)GenRM Training Prompt(文字版: Prompt 模型需要比较两个 Response 并提供结构化的评估理由以及最终的 Pairwise 判断)
1 | 你将看到一个对话上下文,随后是一个用户 Query 和两个 Response。你需要预测哪个 Response 将更受人类专家标注员的青睐。你可以考虑任何你认为合适的标准。尽力而为,仔细思考,深入分析 Response,并提供最终裁决 |
Figure 14:Creative-writing pairwise evaluation annotation instructions


注:本文包含 AI 辅助创作
Paper Summary


| 模块 | 参数 | 值 | 模块 | 参数 | 值 |
|---|---|---|---|---|---|
| Rubric Generator | #generations | 6 | Judge | #generations | 7 |
| Cutoff Length | 512 | Cutoff Length | 1024 | ||
| Batch Size | 288 | Batch Size | 224 | ||
| Optimizer | AdamW | Optimizer | AdamW | ||
| Learning Rate | 1e-6 | Learning Rate | 1e-6 | ||
| Temperature | 1.0 | Temperature | 1.0 | ||
| #iterations | 2 | #iterations | 2 | ||
| Epochs | 1 | Epochs | 1 | ||
| εhigh | 0.28 | εhigh | 0.28 | ||
| εlow | 0.2 | εlow | 0.2 | ||
| β | 0.001 | β | 0.001 |
| 方法 | 参数 | 值 | 方法 | 参数 | 值 |
|---|---|---|---|---|---|
| DPO | Cutoff Length | 2048 | GRPO | #generations | 6 |
| Batch Size | 64 | Cutoff Length | 2048 | ||
| Optimizer | AdamW | Batch Size | 288 | ||
| Learning Rate | 8e-7 | Optimizer | AdamW | ||
| Epochs | 1 | Learning Rate | 5e-7 | ||
| beta | 0.1 | Temperature | 1.0 | ||
| SFT mixing weight | 0.2 | #iterations | 2 | ||
| // | // | Epochs | 1 | ||
| // | // | εhigh | 0.28 | ||
| // | // | εlow | 0.2 | ||
| // | // | β | 0.001 |
| 模块 | 参数 | 值 | 模块 | 参数 | 值 |
|---|---|---|---|---|---|
| Rubric Generator | Maximum Tokens | 1024 | Judge | Maximum Tokens | 4096 |
| Temperature | 0.0 | Temperature | 1.0 | ||
| Top-P | 1.0 | Top-P | 1.0 | ||
| Top-K | -1 | Top-K | -1 | ||
| Enable-thinking | False | Enable-thinking | False |
| Func. | Promo. | Non-Fic. | Fiction | Funny | Poetry | Script | Role | AVG | |
|---|---|---|---|---|---|---|---|---|---|
| LLM as Judge (black-box model) | |||||||||
| Claude-4-Opus-thinking | 65.7 | 64.3 | 64.1 | 60.1 | 54.2 | 64.0 | 43.5 | 51.7 | 61.0 |
| OpenAI-o4-mini | 58.3 | 58.6 | 60.9 | 55.5 | 53.2 | 68.0 | 30.4 | 55.2 | 56.6 |
| Gemini-2.5-Flash | 59.1 | 57.7 | 62.5 | 59.8 | 52.2 | 56.0 | 34.8 | 51.7 | 57.5 |
| White-box Reward Models | |||||||||
| Skywork-Llama-3.1-8B | 53.6 | 56.3 | 60.6 | 49.0 | 52.2 | 56.0 | 65.2 | 41.4 | 53.1 |
| Skywork-Gemma-2-27B | 49.0 | 53.9 | 59.6 | 33.9 | 55.1 | 36.0 | 21.7 | 51.7 | 46.8 |
| RM-R1-DeepSeek-Qwen-7B | 62.5 | 55.1 | 59.2 | 55.4 | 58.0 | 56.0 | 65.2 | 41.4 | 57.4 |
| RM-R1-Qwen2.5-7B | 67.0 | 57.2 | 53.9 | 60.0 | 54.6 | 72.0 | 47.8 | 65.5 | 59.8 |
| RRM-7B | 50.0 | 35.3 | 50.0 | 49.5 | 38.5 | 36.4 | 45.5 | 53.8 | 44.7 |
| Rubric-based Models | |||||||||
| Rubric-RM | 58.3 | 58.5 | 57.9 | 58.3 | 58.0 | 76.0 | 47.8 | 55.2 | 60.3 |
| Rubric-ARM | 67.8 | 63.1 | 65.8 | 60.9 | 61.0 | 80.0 | 47.8 | 55.2 | 63.2 |
中文版:
1 | 你的任务是从用户的请求中提取一组评分细则(rubric-style)式的指令。这些细则将用作评估标准,以检查 Response 是否完全满足请求。每个细则项必须是一个通用原则。如果任何细则仍然包含特定主题的引用(例如,名称、地点、神话、数字、历史事实),则自动视为无效 |
中文版:
1 | 你是一个公平公正的 Judge。你的任务是根据给定的指令和一个评分细则(rubric)来评估 'Response A' 和 'Response B'。你将按照下面概述的 distinct phases(不同阶段)进行此次评估 |
注:本文包含 AI 辅助创作
Paper Summary
kimi-k2.5-thinking 和 kimi-k2.5-instant;



temperature = 1.0,top-p = 0.95,上下文长度为 256k tokens

1 | You are Kimi, today’s date: DATE. |
max_steps_per_episode = 100 temperature = 0,WebArena 的 temperature = 0.1作者为所有计算机使用任务使用统一的系统提示:
1 | You are a GUI agent. You are given an instruction, a screenshot of the screen and your previous interactions with the computer. |
1 | { |
1 | You are Kimi, a professional and meticulous expert in information collection and organization. |





注:本文包含 AI 辅助创作
Paper Summary
pass@k

pass@k 性能以衡量基础推理能力,但这仅作为参考,而非主要优化目标





注:本文包含 AI 辅助创作
Paper Summary









注:本文包含 AI 辅助创作
Paper Summary





Figure 2:Expansion rate \(n=2\) 的 HC 示意图

Figure 8: Transformer HC 形式

Algorithm 2:Pseudocode of hyper-connections in a PyTorch-like style.
1 | # h: hyper hidden matrix (BxLxNxD) |
Algorithm3:Pseudocode of transformer with hyper-connections in a PyTorch-like style.
1 | # h: hyper hidden matrix (BxLxNxD) |