省略号在LaTeX中的使用
- 参考链接:LaTeX入门(6)
- 常见的省略号有:“\ldots”,“\cdots”,“\vdots”,“\ddots”等
- 对于常规的“\ldots”(下),“\cdots”(中),一般来说,使用“\dots”更好些,能够自动适配选择位置
- “\vdots”,“\ddots”则用在特殊情况下,比如矩阵等
凡事预则立,不预则废
1 | \begin{figure}[h] |
1 | % \usepackage{enumitem} |
\footnote{}
默认会自动编号,整片文章按照顺序排列编号\footnote[3]{}
则允许手动设置编号,可以按照自己的意愿随意设置编号1 | \usepackage{hyperref} |
1 | def check_row(row, gap): |
在管理HDFS文件时,我们常用的命令有三个 hadoop fs
,hadoop dfs
和hdfs dfs
【注意没有hdfs fs
】
参考:https://blog.csdn.net/u013019431/article/details/78485555
hadoop fs:
hadoop dfs
hdfs dfs
Spring中Logger对象的名称使用的是小写
1 | private static final Logger logger= LoggerFactory.getLogger(BeanFactory.class); |
其他很多公司或者开源工具的代码也跟着这样用,比如美团的RPC开源框架mtthrift
private
修饰的常量不用大写?动态规划 (Dynamic Programming, DP) 就是先把复杂问题分解为若干的子问题,再通过求解这些子问题来得到原问题的解。这适合解决满足如下两个性质的问题:
最优子结构 (optimal substructure):一个原问题可以拆分成一个个的小问题,解决这些小问题后能够通过组合小问题的解来得到原问题的最优解。
重叠子问题 (overlapping subproblems):子问题出现多次,并且子问题的解能被存储起来重复使用。
马尔科夫决策过程正好满足动态规划的这两个要求:贝尔曼方程把问题分解成一个递归的结构来求解子问题,价值函数可以存储并复用它的最佳解。因此我们就可以使用动态规划的方法来求解马尔科夫决策过程的核心问题:预测和控制。
预测 (prediction):已知一个马尔科夫决策过程 MDP 和一个策略 π,或者是给定一个马尔科夫奖励过程 MRP,求解基于该策略的价值函数 vπ。(评估一个给定的策略)
控制 (control):已知一个马尔科夫决策过程 MDP,求解最优价值函数 v∗ 和最优策略 π∗。(搜索最佳策略)
这两种问题的区别在于,预测问题是策略已给,我们需要确定它的价值函数是多少,而控制问题是要在没有策略的前提下确定最优的价值函数以及对应的策略。两者之间存在递进关系,在强化学习中,我们通过解决预测问题,进而解决控制问题。
同步动态规划算法中,每一次迭代都更新所有状态的价值
在异步动态规划算法中,每一次迭代并不对所有状态的价值进行更新,而是依据一定的原则有选择性地更新部分状态的价值,这种算法能显著节约计算资源,并且只要所有状态能够得到持续的访问更新,那么也能确保算法收敛至最优解。
下面分别介绍比较常用的异步动态规划思想:
原位动态规划 (in-place dynamic programming):直接利用当前状态的后续状态的价值来更新当前状态的价值。
优先级动态规划 (prioritised sweeping):对每一个状态进行优先级分级,优先级越高的状态其状态价值优先得到更新。
实时动态规划 (real-time dynamic programming):直接使用个体与环境交互产生的实际经历来更新状态价值,对于那些个体实际经历过的状态进行价值更新。
动态规划算法使用全宽度(full-width)的回溯机制来进行状态价值的更新,也就是说,无论是同步还是异步动态规划,在每一次回溯更新某一个状态的价值时,都要追溯到该状态的所有可能的后续状态,并结合已知的马尔科夫决策过程定义的状态转换矩阵和奖励来更新该状态的价值.这种全宽度的价值更新方式对于状态数在百万级别及以下的中等规模的马尔科夫决策问题还是比较有效的,但是当问题规模继续变大时,动态规划算法将会因贝尔曼维度灾难而无法使用,每一次的状态回溯更新都要消耗非常昂贵的计算资源.为此需要寻找其他有效的算法,这就是后文将要介绍的采样回溯.这类算法的一大特点是不需要知道马尔科夫决策过程的定义,也就是不需要了解状态转移概率矩阵以及奖励函数,而是使用采样产生的奖励和状态转移概率.这类算法通过采样避免了维度灾难,其回溯的计算时间消耗是常数级的.由于这类算法具有非常可观的优势,在解决大规模实际问题时得到了广泛的应用.