欢迎来到 Jiahong 的技术博客
包含操作系统、机器学习、深度学习、强化学习、NLP 和 LLM 等 计算机/AI 领域的学习笔记与实践总结
📊 共计 623 篇技术文章 | 🏷️ 51 个分类领域
人工智能 & 机器学习
广告 & 推荐
编程语言
系统 & 运维
数学
开发工具
其他
💡 提示:点击任意卡片即可查看该分类下的所有文章
📧 联系方式:JoeZJiahong@Foxmail.com | 🔗 GitHub: @JoeZJH
凡事预则立,不预则废
包含操作系统、机器学习、深度学习、强化学习、NLP 和 LLM 等 计算机/AI 领域的学习笔记与实践总结
📊 共计 623 篇技术文章 | 🏷️ 51 个分类领域
💡 提示:点击任意卡片即可查看该分类下的所有文章
📧 联系方式:JoeZJiahong@Foxmail.com | 🔗 GitHub: @JoeZJH
这是一个非常深刻的问题,直指两种方法在统计效率上的核心差异。方差的变化规律,是理解为什么几何平均在工程上更受青睐的关键
为了清晰地对比,作者依然沿用之前的设定:每个 token 的重要性比率 \(r_t\) 是独立同分布的随机变量,其均值为 \(\mu\),方差为 \(\sigma^2\)。作者考察随着序列长度 \(T\) 的增加,直接乘积 \(P_T\) 和几何平均 \(G_T\) 的方差如何变化
由于 \(r_t\) 相互独立,乘积的期望等于期望的乘积。方差的计算稍微复杂一些,但作者可以利用独立随机变量乘积的方差公式:
$$
\text{Var}(P_T) = \mathbb{E}_[P_T^2] - (\mathbb{E}_[P_T])^2
$$
其中:
$$
\mathbb{E}_[P_T] = \prod_{t=1}^T \mathbb{E}_[r_t] = \mu^T
$$
$$
\mathbb{E}_[P_T^2] = \prod_{t=1}^T \mathbb{E}_[r_t^2] = \prod_{t=1}^T (\text{Var}(r_t) + (\mathbb{E}_[r_t])^2) = (\sigma^2 + \mu^2)^T
$$
因此:
$$
\text{Var}(P_T) = (\sigma^2 + \mu^2)^T - \mu^{2T}
$$
结论: 除非 \(r_t\) 恒等于 1(即 \(p\) 和 \(q\) 完全相同),否则直接乘积 \(P_T\) 的方差会随着序列长度 \(T\) 的增加而指数级增长。这就是重要性采样在实际应用中面临的“方差爆炸”问题,导致估计量极其不稳定,几乎不可用
分析几何平均的方差,更自然的方式是在对数空间进行。令 \(Y_t = \log r_t\),并假设 \(Y_t\) 独立同分布,其均值为 \(\mu_y\),方差为 \(\sigma_y^2\)
那么:
$$
\log G_T = \frac{1}{T} \sum_{t=1}^T Y_t
$$
$$
\mathbb{E}_[\log G_T] = \mu_y
$$
$$
\text{Var}(\log G_T) = \frac{\sigma_y^2}{T}
$$
现在作者想求 \(G_T = \exp(\log G_T)\) 本身的方差。这需要用到对数正态分布的性质。如果 \(\log G_T\) 是正态分布(根据中心极限定理,当 \(T\) 较大时近似成立),那么 \(G_T\) 近似服从对数正态分布。对于一个对数正态变量,其方差为:
$$
\text{Var}(G_T) \approx \left( \exp(\sigma_y^2 / T) - 1 \right) \cdot \exp(2\mu_y + \sigma_y^2 / T)
$$
为了让你更直观地感受这种差异,作者来看一张对比表(假设 \(\mu = 1, \sigma^2 = 0.1\),即 \(r_t\) 围绕 1 波动):
| 序列长度 \(T\) | 直接乘积 \(P_T\) 的方差 | 几何平均 \(G_T\) 的方差 | 对比 |
|---|---|---|---|
| 1 | \(0.1\) | \(0.1\) | 相同 |
| 10 | \((1.1)^{10} - 1 \approx 1.59\) | \(\approx 0.1 / 10 = 0.01\) | 乘积方差是几何平均方差的 159倍 |
| 100 | \((1.1)^{100} - 1 \approx 13780\) | \(\approx 0.1 / 100 = 0.001\) | 乘积方差是几何平均方差的 1378万倍 |
| 1000 | \((1.1)^{1000} - 1 \approx 2.5 \times 10^{41}\) | \(\approx 0.1 / 1000 = 0.0001\) | 乘积方差是几何平均方差的 \(2.5 \times 10^{45}\)倍 |
| 特性 | 直接乘积 \(P_T\) | 几何平均 \(G_T\) |
|---|---|---|
| 方差随 \(T\) 的变化 | 指数级增长(除非 \(p=q\) 精确成立) | 以 \(1/T\) 速率衰减到 0 |
| 统计含义 | 随着序列变长,估计量越来越不可靠,单个样本就能主导整个估计。 | 随着序列变长,估计量越来越稳定,收敛到真实平均值。 |
| 工程后果 | 训练不稳定,梯度更新被个别长序列的极端权重支配。 | 训练稳定,长短序列贡献均衡,模型收敛更平滑。 |
为什么 LLM 的 GSPO 倾向于使用几何平均(或其变体)?
这张方差对比表就是最直接的答案。在长序列(如 \(T=1024\) 或更长)的场景下,直接乘积的方差会天文数字般地爆炸 ,导致任何基于它的学习算法都无法收敛。而几何平均的方差随着序列增长反而越来越小 ,提供了统计学习所需的稳定性。虽然几何平均会引入一些偏差,但在“有偏但稳定”和“无偏但发散”之间,工程实践几乎总是选择前者
这是一个非常深刻的问题,直指两种方法在统计效率上的核心差异。方差的变化规律,是理解为什么几何平均在工程上更受青睐的关键。
为了清晰地对比,我们依然沿用之前的设定:每个 token 的重要性比率 (r_t) 是独立同分布的随机变量,其均值为 (\mu),方差为 (\sigma^2)。我们考察随着序列长度 (T) 的增加,直接乘积 (P_T) 和几何平均 (G_T) 的方差如何变化。
由于 (r_t) 相互独立,乘积的期望等于期望的乘积。方差的计算稍微复杂一些,但我们可以利用独立随机变量乘积的方差公式:
[
\text{Var}(P_T) = \mathbb{E}[P_T^2] - (\mathbb{E}[P_T])^2
]
其中:
[
\mathbb{E}[P_T] = \prod_{t=1}^T \mathbb{E}[r_t] = \mu^T
]
[
\mathbb{E}[P_T^2] = \prod_{t=1}^T \mathbb{E}[r_t^2] = \prod_{t=1}^T (\text{Var}(r_t) + (\mathbb{E}[r_t])^2) = (\sigma^2 + \mu^2)^T
]
因此:
[
\text{Var}(P_T) = (\sigma^2 + \mu^2)^T - \mu^{2T}
]
结论: 除非 (r_t) 恒等于 1(即 (p) 和 (q) 完全相同),否则直接乘积 (P_T) 的方差会随着序列长度 (T) 的增加而指数级增长。这就是重要性采样在实际应用中面临的“方差爆炸”问题,导致估计量极其不稳定,几乎不可用。
分析几何平均的方差,更自然的方式是在对数空间进行。令 (Y_t = \log r_t),并假设 (Y_t) 独立同分布,其均值为 (\mu_y),方差为 (\sigma_y^2)。
那么:
[
\log G_T = \frac{1}{T} \sum_{t=1}^T Y_t
]
[
\mathbb{E}[\log G_T] = \mu_y
]
[
\text{Var}(\log G_T) = \frac{\sigma_y^2}{T}
]
现在我们想求 (G_T = \exp(\log G_T)) 本身的方差。这需要用到对数正态分布的性质。如果 (\log G_T) 是正态分布(根据中心极限定理,当 (T) 较大时近似成立),那么 (G_T) 近似服从对数正态分布。对于一个对数正态变量,其方差为:
[
\text{Var}(G_T) \approx \left( \exp(\sigma_y^2 / T) - 1 \right) \cdot \exp(2\mu_y + \sigma_y^2 / T)
]
为了让你更直观地感受这种差异,我们来看一张对比表(假设 (\mu = 1, \sigma^2 = 0.1),即 (r_t) 围绕 1 波动):
| 序列长度 (T) | 直接乘积 (P_T) 的方差 | 几何平均 (G_T) 的方差 | 对比 |
|---|---|---|---|
| 1 | (0.1) | (0.1) | 相同 |
| 10 | ((1.1)^{10} - 1 \approx 1.59) | (\approx 0.1 / 10 = 0.01) | 乘积方差是几何平均方差的 159倍 |
| 100 | ((1.1)^{100} - 1 \approx 13780) | (\approx 0.1 / 100 = 0.001) | 乘积方差是几何平均方差的 1378万倍 |
| 1000 | ((1.1)^{1000} - 1 \approx 2.5 \times 10^{41}) | (\approx 0.1 / 1000 = 0.0001) | 乘积方差是几何平均方差的 (2.5 \times 10^{45})倍 |
| 特性 | 直接乘积 (P_T) | 几何平均 (G_T) |
|---|---|---|
| 方差随 (T) 的变化 | 指数级增长(除非 (p=q) 精确成立) | 以 (1/T) 速率衰减到 0 |
| 统计含义 | 随着序列变长,估计量越来越不可靠,单个样本就能主导整个估计。 | 随着序列变长,估计量越来越稳定,收敛到真实平均值。 |
| 工程后果 | 训练不稳定,梯度更新被个别长序列的极端权重支配。 | 训练稳定,长短序列贡献均衡,模型收敛更平滑。 |
为什么 LLM 的 GSPO 倾向于使用几何平均(或其变体)?
这张方差对比表就是最直接的答案。在长序列(如 (T=1024) 或更长)的场景下,直接乘积的方差会天文数字般地爆炸,导致任何基于它的学习算法都无法收敛。而几何平均的方差随着序列增长反而越来越小,提供了统计学习所需的稳定性。虽然几何平均会引入一些偏差,但在“有偏但稳定”和“无偏但发散”之间,工程实践几乎总是选择前者。
注:本文包含 AI 辅助创作
Paper Summary




Avg@32:52.4 -> 60.1(GRPO 为 57.1)







注:本文包含 AI 辅助创作
Paper Summary
Pass@k 测试时扩展指标Pass@k 指标下具有改进的测试时扩展能力Pass@k 指标上可以在三个数学竞赛基准测试(AIME 25,HMMT 25 Feb 和 Nov,BRUMO 25)上胜过基于 GRPO 的基线(见图 1)Pass@k 指标上,作者的方法可以匹配或胜过 DeepCoder (2025a)Pass@k 测试时扩展指标,其中 k 的范围从 1 到 256
Pass@k 衡量的性能Pass@k 衡量的测试时扩展性

Pass@1 奖励(即仅结果奖励)上进行训练可以提高 \(k > 1\) 时的 Pass@k。包括作者将要展示的代码生成实验,作者通常没有观察到 RL 不能提高 \(k > 1\) 时 Pass@k 的现象
Pass@5 和 Pass@10 指标上优于 GRPOPass@k 下更好的扩展行为?Pass@kPass@k 这个意义上说
Pass@k 性能 
Pass@k 随着 \(k\) 的增加而增加pass@kPass@1 性能随总训练样本数的变化


注:本文包含 AI 辅助创作
Paper Summary







原始英文原文:
1 | You are an expert meta-evaluator analyzing the alignment of evaluation criteria. |
中文版:
1 | 你是一个专家级元评估者,负责分析评估标准的一致性 |
英文原版:
1 | You are an expert meta-evaluator analyzing the nature of evaluation criteria. |
中文版:
1 | 你是一个专家级元评估者,负责分析评估标准的性质 |
原始英文版:
1 | Please act as an impartial judge and evaluate the quality of the responses provided by two AI assistants to the user question displayed below. You should choose the assistant that follows the user’s instructions and answers the user’s question better. Your evaluation should consider as many factors as possible. |
中文版:
1 | 请扮演一个公正的评判者,评估两个 AI 助手对下面显示的用户问题的回答质量。你应该选择那个更好地遵循了用户指令并回答了用户问题的助手。你的评估应考虑到尽可能多的因素。通过比较两个回答开始你的评估,并提供全面的推理。避免任何位置偏差,确保回答呈现的顺序不影响你的决定。不要让回答的长度影响你的评估。不要偏袒某些助手的名称。尽可能保持客观。在提供你的推理之后,严格按照以下格式输出你的最终判决:如果助手 A 更好,输出 [[A]];如果助手 B 更好,输出 [[B]] |
1 | 你是一个专门从事 \*\*指令遵循\*\* 评估的 LLM 专家 |
1 | 请扮演一个 \*\*公正的评判者\*\* 和 \*\*严格的评估者\*\* |
1 | 你是一个 Rubric 基准测试的专家评估者。你的任务是确定一个生成的“候选 Rubric 规则”是否与任何“ Golden 标准规则”在语义上等价 |
本文是 NanoBot 作者项目分享和 QA 的一些感想(分享时间:2026-02-26)
注:本文包含 AI 辅助创作
Paper Summary






torch.topk 稍慢但具有确定性torch.topk 产生更一致的输出,并带来显著的 RL 收益torch.topk 作为默认的 top-k 操作符.detach()):



作者在 Telecom 和 Retail 领域添加了小的 Prompt 调整,避免因用户过早终止而导致的失败
优化的 Prompt 如图 12 和图 13 所示,这些优化的 Prompt 作为系统 Prompt 的一部分被整合进来
Figure 12: The optimized user prompt for \(\tau^{2}\)-Bench Telecom
1 | SYSTEM_PROMPT = """" |
Figure 13: The optimized user prompt for \(\tau^{2}\)-Bench Retail
1 | # Rules: |
Data

Data Distribution by Coding Languages

Data sample
每个测试用例由三个部分组成:Task、Checklist 和专用环境 (Dedicated Environment)。下面是一个具有代表性的测试用例示例:
1 | Task: Develop an online drawing tool that includes a brush, an eraser, a white canvas, and a save button. The brush color and thickness should be selectable via buttons on the left. |
中文版:
1 | **Task** :开发一个在线绘图工具,包含画笔、橡皮擦、白色画布和一个保存按钮。画笔颜色和粗细应可通过左侧按钮选择。用户可通过点击并拖动鼠标在画布上绘图。橡皮擦大小应可通过左侧按钮选择。用户可通过点击并拖动鼠标在画布上擦除内容。绘图完成后,点击“保存”按钮应允许用户将图像保存到本地。请使用 React 框架在当前目录中实现此功能 |
Data Construction and Validation ,作者实施了一个严格的四阶段流程来确保数据质量:
注:本文包含 AI 辅助创作
参考链接:
注:暂时仅关注 Post-training 部分
Paper Summary


注:本文包含 AI 辅助创作
Paper Summary
<tool_call></tool_call>)并优化全局计划:
1 | 您是一位专业的 Rubric 写作专家。您的任务是基于给定的 **report-generation query** 生成一套连贯且自包含的评估 Rubrics,该 Rubrics 将用于评估生成响应(即报告)的质量 |
1 | 您是一个精确且公正的评分模型 |
1 | 您是一个准确且公正的评分模型(Reward Model)。您的任务是评估 **Rubrics**(evaluation criteria)的质量。Rubric 是用于评估模型生成答案质量的一套标准。您需要判断给定的 Rubric 是否合理、全面以及与任务目标对齐 |
System Prompt原始论文英文版(大致重写翻译为中文)
1 | 您是一位能够生成高质量深度研究报告的智能助手。您的目标是通过多个“计划-执行-观察”循环来解决复杂的用户问题 |
User Prompt1 | <user_input> { { query } } </user_input> |
System Prompt1 | 您是一位信息处理专家,负责维护一个“long-term memory”数据库。您当前正处于分块阅读长文本的多步骤过程中 |
User Prompt1 | <user_input> { { query } } </user_input> |
System Prompt1 | 您是一位专业的结构化分析报告写作助手,负责维护一个基于用户输入持续更新的 <report>。您的目标是基于工具提供的信息 **增量更新** 现有的 <report>,**而不引入外部信息** |
User Prompt1 | <user_input> {query} </user_input> |
1 | 1. 仔细阅读和分析用户的问题,思考用户需要什么信息 |
1 | 请扮演一个公正的法官,评估两位 AI 助手对下面显示的用户问题所提供回答的质量。您应该选择更能遵循用户指示、更好地回答用户问题的助手。您的评估应考虑诸如帮助性、相关性、准确性、深度、创造性和回答的详细程度等因素。在开始评估时,请先比较两个回答,并提供简短的解释。避免任何位置偏见,并确保回答的呈现顺序不影响您的决定。不要让回答的长度影响您的评估。不要偏袒特定助手的名称。尽可能客观 |
1 | 请扮演一个公正的法官,评估 AI 助手对下面显示的用户问题所提供回答的质量。您的评估应考虑诸如帮助性、相关性、准确性、深度、创造性和回答的详细程度等因素。您应该给出一个 1 到 10 的分数,其中 1 是最差,10 是最好 |



1 | { |