LaTex——省略号

Posted on 2020-09-09

省略号在LaTeX中的使用

参考链接：LaTeX入门（6）
常见的省略号有：“\ldots”，“\cdots”，“\vdots”，“\ddots”等
对于常规的“\ldots”（下），“\cdots”（中），一般来说，使用“\dots”更好些，能够自动适配选择位置
“\vdots”，“\ddots”则用在特殊情况下，比如矩阵等

LaTex——排版

Posted on 2020-09-09

vspace

增加或减少行间距

例如，减少图片和正文的间距0.1cm采用下面的表达，单位可以是cm,pt,mm等

\begin{figure}[h]
  \centering
  \vspace{-0.1cm}
  \includegraphics[width=\linewidth]{Q-Network-Page-2}
  \caption{Q-Network of RL-MPCA}
  \Description{}
  \label{fig:Q-Network}
\end{figure}

列表缩进

参考链接：
- https://tex.stackexchange.com/questions/170525/itemize-left-margin
- https://www.cxyzjd.com/article/robert_chen1988/83179571

缩进设置

1 2	% \usepackage{enumitem} % \setlist{leftmargin=5.5mm}

footnote编号

\footnote{}默认会自动编号，整片文章按照顺序排列编号
\footnote[3]{}则允许手动设置编号，可以按照自己的意愿随意设置编号

超链接

参考链接：

文档内部超链接

1
2
3

\usepackage{hyperref}
\hyperlink{thesentence}{[1]}
\hypertarget{thesentence}{[1]}.

趣味题——同距运动员

Posted on 2020-09-04

题目

有27个参加跑步的人，每3人一组，分成9组，同一组用同一个号。就是1号3个，2号3个，3号3个……现在假设第一组的赢得了比赛，每次只有一个人到达。所有人到达的时候满足规律，1号参赛者之间都间隔一个人，2号参赛者之间都间隔2个人，3号参赛者之间都间隔3个人…9号参赛者之间都间隔9人。问27个人的到达顺序是否有解？如果有，解是什么？

解决方案

def check_row(row, gap):
    a = abs(row[0] - row[1]) == gap
    b = abs(row[1] - row[2]) == gap
    c = abs(row[2] - row[0]) == gap
    abc = [a, b, c]
    if sum([1 if e else 0 for e in abc]) != 2:
        return False
    return True


def generate_conds(ri, rest_number):
    size = len(rest_number)
    gap = ri + 2
    conds = list()
    for i in range(size):
        for j in range(i+1, size):
            for k in range(j+1, size):
                row = rest_number[i], rest_number[j], rest_number[k]
                if check_row(row, gap):
                    conds.append(row)
    return conds


def backtrace(maze, ri, rest_number, all_maze):
    if not rest_number:
        data_ = [[e for e in row] for row in maze]
        all_maze.append(data_)
        return True
    conds = generate_conds(ri, rest_number)
    if not conds:
        return False
    for row in conds:
        local_rest = [e for e in rest_number]
        for e in row:
            # print("local rest: %s and e: %s" % (local_rest, e))
            local_rest.remove(e)
        maze[ri] = [e for e in row]
        backtrace(maze, ri + 1, local_rest, all_maze)


def solution():
    maze = list()
    for i in range(9):
        row = [0 for _ in range(3)]
        maze.append(row)
    rest_number = list(range(1, 28))
    maze[0][0] = 1
    maze[0][1] = 3
    maze[0][2] = 5
    rest_number.remove(1)
    rest_number.remove(3)
    rest_number.remove(5)
    all_maze = list()
    # print(rest_number)
    # print(maze)
    backtrace(maze, 1, rest_number, all_maze)
    for maze in all_maze:
        print(maze)


if __name__ == "__main__":
    solution()

RL——BCQ

Posted on 2020-08-16

参考链接：【笔记】BCQ详解
- 原作者的PPT
参考链接：BCQ姊妹篇：Discrete BCQ - Metaqiang的文章 - 知乎
参考链接：【代码速读】（RL）1.BCQ - 一条的文章 - 知乎

Hadoop——hdfs+dfs和hadoop+fs的区别

Posted on 2020-07-29

在管理HDFS文件时，我们常用的命令有三个 hadoop fs，hadoop dfs和hdfs dfs【注意没有hdfs fs】
参考：https://blog.csdn.net/u013019431/article/details/78485555

比较三种命令的区别

hadoop fs:
- FS relates to a generic file system which can point to any file systems like local, HDFS etc. So this can be used when you are dealing with different file systems such as Local FS, HFTP FS, S3 FS, and others
- 意思是说该命令可以用于其他文件系统，不止是hdfs文件系统内，也就是说该命令的使用范围更广
hadoop dfs
- 专门针对hdfs分布式文件系统
hdfs dfs
- 和上面的命令作用相同，相比于上面的命令更为推荐，并且当使用hadoop dfs时内部会被转为hdfs dfs命令

Java——Logger变量命名规则

Posted on 2020-07-15

一般Java常量命名规范

Java中的常量名称一般用全大写，比如美团，阿里等公司均有相关要求，详情参考阿里巴巴Java开发手册.pdf

一个特殊的例子——Logger

特殊写法

Spring中Logger对象的名称使用的是小写

1	private static final Logger logger= LoggerFactory.getLogger(BeanFactory.class);

其他很多公司或者开源工具的代码也跟着这样用，比如美团的RPC开源框架mtthrift

Logger对象使用final的原因

定义成static final,logger变量不可变，读取速度快
static 修饰的变量是不管创建了new了多少个实例，也只创建一次，节省空间，如果每次都创建Logger的话比较浪费内存；final修饰表示不可更改，常量
将域定义为static,每个类中只有一个这样的域。而每一个对象对于所有的实例域却都有自己的一份拷贝，用static修饰既节约空间，效率也好。final 是本 logger 不能再指向其他 Logger 对象

为什么不适用大写

Spring开发者有自己的编程规范
- 常量引用不用大写？
- private修饰的常量不用大写？
- Logger太特殊了，使用特殊定义，仅此一个，别无其他

RL——强化学习与动态规划

Posted on 2020-06-15

参考文献

前言

动态规划 (Dynamic Programming, DP) 就是先把复杂问题分解为若干的子问题，再通过求解这些子问题来得到原问题的解。这适合解决满足如下两个性质的问题：
最优子结构 (optimal substructure)：一个原问题可以拆分成一个个的小问题，解决这些小问题后能够通过组合小问题的解来得到原问题的最优解。
重叠子问题 (overlapping subproblems)：子问题出现多次，并且子问题的解能被存储起来重复使用。

马尔科夫决策过程正好满足动态规划的这两个要求：贝尔曼方程把问题分解成一个递归的结构来求解子问题，价值函数可以存储并复用它的最佳解。因此我们就可以使用动态规划的方法来求解马尔科夫决策过程的核心问题：预测和控制。

预测 (prediction)：已知一个马尔科夫决策过程 MDP 和一个策略 π，或者是给定一个马尔科夫奖励过程 MRP，求解基于该策略的价值函数 vπ。（评估一个给定的策略）
控制 (control)：已知一个马尔科夫决策过程 MDP，求解最优价值函数 v∗ 和最优策略 π∗。（搜索最佳策略）
这两种问题的区别在于，预测问题是策略已给，我们需要确定它的价值函数是多少，而控制问题是要在没有策略的前提下确定最优的价值函数以及对应的策略。两者之间存在递进关系，在强化学习中，我们通过解决预测问题，进而解决控制问题。

1. 同步动态规划 (Synchronous Dynamic Programming)

同步动态规划算法中，每一次迭代都更新所有状态的价值

参考链接：策略迭代与值迭代的区别
1.1 策略评估 (policy evaluation)
1.2 策略迭代 (policy iteration)
1.3 价值迭代 (value iteration)

2. 异步动态规划 (Asynchronous Dynamic Programming)

在异步动态规划算法中，每一次迭代并不对所有状态的价值进行更新，而是依据一定的原则有选择性地更新部分状态的价值，这种算法能显著节约计算资源，并且只要所有状态能够得到持续的访问更新，那么也能确保算法收敛至最优解。
下面分别介绍比较常用的异步动态规划思想：
原位动态规划 (in-place dynamic programming)：直接利用当前状态的后续状态的价值来更新当前状态的价值。
优先级动态规划 (prioritised sweeping)：对每一个状态进行优先级分级，优先级越高的状态其状态价值优先得到更新。
实时动态规划 (real-time dynamic programming)：直接使用个体与环境交互产生的实际经历来更新状态价值，对于那些个体实际经历过的状态进行价值更新。

3. 动态规划

动态规划算法使用全宽度(full-width)的回溯机制来进行状态价值的更新,也就是说,无论是同步还是异步动态规划,在每一次回溯更新某一个状态的价值时,都要追溯到该状态的所有可能的后续状态,并结合已知的马尔科夫决策过程定义的状态转换矩阵和奖励来更新该状态的价值.这种全宽度的价值更新方式对于状态数在百万级别及以下的中等规模的马尔科夫决策问题还是比较有效的,但是当问题规模继续变大时,动态规划算法将会因贝尔曼维度灾难而无法使用,每一次的状态回溯更新都要消耗非常昂贵的计算资源.为此需要寻找其他有效的算法,这就是后文将要介绍的采样回溯.这类算法的一大特点是不需要知道马尔科夫决策过程的定义,也就是不需要了解状态转移概率矩阵以及奖励函数,而是使用采样产生的奖励和状态转移概率.这类算法通过采样避免了维度灾难,其回溯的计算时间消耗是常数级的.由于这类算法具有非常可观的优势,在解决大规模实际问题时得到了广泛的应用.

动态规划算法是model-based算法，因为需要回溯当前状态的所有后续状态（full-width回溯机制）
model-free算法则无法使用动态规划算法（只能使用类似采样回溯等方法）
- 蒙特卡罗法就是采样回溯法
- model-free方法一般迭代公式中都包含着学习率超参数（有时候会1/N，用于模拟期望），而model-based算法可以直接获取到真实的概率转移情况，无需学习率超参数
TD（temporal difference）则是结合了蒙特卡罗法和动态规划法的方法
- 类似于蒙特克罗法，需要模拟交互序列
  - 不同于蒙特卡罗法，不需要积累很多交互数据求均值
- 类似于动态规划算法，求解公式里面使用当前回报和下一时刻的价值预估来更新当前时刻的价值
  - 不同于动态规划算法，不需要知道状态转移矩阵，也不需要full-width回溯
Q-learning的学习率为1，且model-based中状态转移矩阵取值为{0,1}时，Q-learning的迭代公式与价值迭代的迭代公式完全一致
- 直观理解（不一定严谨）：由于Q-learning中，状态转移矩阵未知（下个状态的期望收益不可信），也就不一定是full-width回溯（一次更新所有状态）的，学习时需要增加学习率参数，否则很容易走偏；而model-based的价值迭代（动态规划方案）中，可以知道状态转移矩阵，求得的收益期望是可信的，而且是full-width回溯的，不需要增加学习率超参数（或者学习率为1）
  - 这里full-width的作用是什么呢？如果价值迭代中不是full-width的是否可以收敛呢？理论上是可以的吧【待确定】
  - 无法使用full-width的原因也就是状态转移矩阵未知，但是如果已知状态转移矩阵取值为{0,1}，那么理论上每次执行时都可以认为状态转移矩阵是已知的吧，因为环境返回的数据包含了下一个状态信息，而状态转移矩阵只能取P(S’|S)=1，此时Q-learning更像是一个异步动态规划算法（real-time 动态规划算法）

Linux——多用户问题

Posted on 2020-06-13

在Linux系统有多个用户时，我们可能需要从一个用户界面打开终端登录另一个用户，从而使用该用户的环境和软件

多用户打开各自软件问题

问题描述

在一个用户登录图形界面后，需要以另一个用户的身份打开一个图形化软件，此时直接打开图形化软件可能遇到如下错误

No protocol specified

问题发生原因

因为Xserver默认情况下禁止别的用户图形程序运行在当前用户图形界面上

解决方案

在当前用户下执行命令
1
xhost +

RL——PPO&TD3

Posted on 2020-05-16

参考链接：
- 强化学习之图解PPO算法和TD3算法

为什么说PPO算法是on-policy的？

在推导TRPO和PPO的过程中
- 在将新策略\(\pi\)上的状态访问频率\(\rho_{\pi}(\bf{s})\)替换成旧策略的状态访问频率\(\rho_{\pi_{old}}(\bf{s})\)时，要求\(\pi\)与\(pi_{old}\)相聚不能太远，这就要求采样的样本不能是太早的策略，详情见《强化学习精要》P247（注意：此处\(\pi\)表达与书中相反）
- 在将新策略\(\pi\)上的动作采样替换为就策略\(\pi_{old}\)上的动作采样时，需要进行Importance Sampling，这要求了采样到的数据应该都是来源于同一个旧策略\(\pi_{old}\)
  - 来源于同一个旧策略说明：最好是更新一次参数清空一次Buffer，根据本人对一些PPO实现的观察，实际实现时做不到这样，一般一个episode更新一次Buffer，而当Batch Size小于episode的步数时，在一次episode中可能会进行多次更新，一种理解是，同一个episode中的多次更新策略不会变化太大，实际上分布也比较接近，可以看做是同一个？
TRPO和PPO均是从较新的策略中采样样本，然后通过Importance Sampling将数据分布误差进行修正，从而对当前策略进行更新，本质上可以看做是
PPO策略原本是需要当前策略采样的样本的，但是使用了Importance Sampling来减少on-policy方法的采样要求，但是PPO实际上还是需要当前策略产生的数据才能进行有效学习，为此，我们一般会使用一个Clip方法来限制PPO当前策略和旧策略的偏差，以保证数据的有效性
一些其他off-policy的方法也会使用Importance Sampling，但这些策略往往是从固定策略\(\mu\)采样的
- 这些方法的损失函数中会将样本权重按照\(\frac{\pi}{\mu}\)来进行修正动作的概率分布
- 这些off-policy方法与PPO方法最大的不同在于这些方法不需要限制当前策略与行为策略的距离（KL散度）
  - 问题：为什么这些off-policy方法不需要保证行为策略下的状态访问频率\(\rho_{\mu}(\bf{s})\)和目标策略下的状态访问频率\(\rho_{\pi}(\bf{s})\)一致？

RL——A3C

Posted on 2020-05-16

参考链接：
- 强化学习(十五) A3C：其中的流程值的参考
- 理解Actor-Critic的关键是什么？(附代码及代码分析)

Joe Zhou

本博客主要用于记录个人学习笔记

GitHub E-Mail

省略号在LaTeX中的使用

vspace

列表缩进

footnote编号

超链接

题目

解决方案

比较三种命令的区别

一般Java常量命名规范

一个特殊的例子——Logger

特殊写法

Logger对象使用final的原因

为什么不适用大写

前言

1. 同步动态规划 (Synchronous Dynamic Programming)

1.1 策略评估 (policy evaluation)

1.2 策略迭代 (policy iteration)

1.3 价值迭代 (value iteration)

2. 异步动态规划 (Asynchronous Dynamic Programming)

3. 动态规划

多用户打开各自软件问题

问题描述

问题发生原因

解决方案

为什么说PPO算法是on-policy的？