Linux——文件操作

本文记录一些Linux相关文件操作的常见问题

mv操作中断

由于mv操作等价于先执行cp然后执行rm操作
- 还在cp阶段,原始数据是完整的,删除目标文档就行
- 如果已经进入rm阶段,那么说明目标文件时完整的,删除原始文件就行

硬链接与软链接

Linux中链接分为两类:硬链接(hard link)和软链接(soft link),软链接又称为符号链接(symbolic link)

如果一个文件有多个硬链接,那么需要所有硬连接都被删除,当前文件才会被删除
- 原始文件与硬链接是同一个物理地址的两个不同名字
- 硬链接是相互的(个人理解: 一个普通的文件就可以理解为一个硬链接)
如果一个文件有一个硬链接和多个软链接(符号链接),那么删除符号链接不影响原始文件
- 只有文件的所有硬链接都没删除后文件才会被删除
- 文件被删除后软链接也会自动失效,链接路径链接不上

Linux——服务器防火墙配置

本文介绍Linux下服务器防火墙的设置
更详细的描述可以参考博客:https://blog.51cto.com/andyxu/2137046

防火墙总结

iptables:内核层面的netfilter网络过滤器来处理
firewalld: 交由内核层面的nftables包过滤框架处理

Centos6

Centos6默认使用iptable作为防火墙

查看防火墙状态

1	service iptable status

关闭防火墙

临时
1
service iptables stop
永久
1
chkconfig iptables off

打开防火墙

临时
1
service iptables start
永久
1
chkconfig iptables on

Centos7

Centos7默认使用的时firewall作为防火墙, 默认使用systemctl管理服务,接下来介绍systemctl管理firewall服务的操作,其他服务也可用systemctl以类似方法管理,只需将filewall名称换成其他服务名称即可

关于服务名称的命名
- 一般来说都是正常名称后加上一位’d.service’,比如’firewalld.service’,’mysqld.service’等

安装

Centos7自带firewalld
Ubuntu:
1
sudo apt-get install firewalld

配置文件

/usr/lib/firewalld/
- 系统配置,尽量不修改
/etc/firewalld/
- 用户配置地址

关于systemctl的使用

列出所有服务
1
systemctl list-unit-files
列出所有打开的服务
1
systemctl list-unit-files|grep enabled

列出某个服务

1	systemctl list-unit-files\|grep [service name]

查看防火墙状态

1	firewall-cmd --state

输出not running或者running

查看防火墙服务

方法一
1
systemctl list-unit-files|grep firewalld.service
- 输出firewalld.service disabled或者firewalld.service enabled
方法二
1
systemctl status firewalld.service
- 输出更详细的信息

开机启动

禁止
1
systemctl disable firewalld.service
允许
1
systemctl enable firewalld.service

查看

1	systemctl is-enabled firewalld.service;echo $?

启动防火墙服务

启动防火墙后默认只开放22端口,其他端口都关闭
1
systemctl start firewalld.service

不能启动的解决方案

1 2	systemctl unmask firewalld.service systemctl start firewalld.service

关闭防火墙服务

1
systemctl stop firewalld.service

端口相关操作命令

查看所有以开放端口
1
firewall-cmd --list-ports
查看某个端口是否开启
1
firewall-cmd --query-port=8080/tcp
开放端口
1
firewall-cmd --zone=public --add-port=80/tcp --permanent
- 命令含义：
  - –zone #作用域
  - –add-port=80/tcp #添加端口，格式为：端口/通讯协议
  - –permanent #永久生效，没有此参数重启后失效
重启服务
开放端口后需要重启服务才能生效*
1
firewall-cmd --reload

移除指定端口

1	firewall-cmd --permanent --remove-port=8080/tcp

防火墙的域

域的作用

一共9种,常用的就一种public,开放时把所有访问该端口的用户当做公共人员,不完全信任,trusted为完全信任:
- block dmz drop external home internal public trusted work
- 下面图片来自博客:https://blog.51cto.com/13503302/2095633
在开放端口时,可以为其添加域(默认为public),不同的域代表不同的信任

域的操作

查看默认zone
1
firewall-cmd --get-default-zone
修改默认zone
1
firewall-cmd --set-default-zone=public

防火墙与SSH登录

默认启动firewall后,防火墙不会打开22端口[已测试],但为何还能正常ssh登录呢?

1	firewall-cmd --list-all

public
target: default
icmp-block-inversion: no
interfaces:
sources:
services: ssh dhcpv6-client
ports:
protocols:
masquerade: no
forward-ports:
source-ports:
icmp-blocks:
rich rules:

从上面的输出中可以看出来ssh服务默认被开启防火墙了,所以无需开启22端口即可使用ssh指令登录到服务器
同时开启的还有dhcpv6-client服务,这个服务用于ipv6的DHCP服务(为什么ipv4不需要这个服务呢?详情参考问答:https://unix.stackexchange.com/questions/176717/what-is-dhcpv6-client-service-in-firewalld-and-can-i-safely-remove-it )

Linux——查看服务器内核和系统版本

本文主要介绍Linux系统的内核版本和系统版本等信息用命令行如何查看

系统类型和版本

Centos

文件存在表示为Centos
1
cat /etc/redhat-release
上述指令同时会输出Centos版本

Ubuntu

命令可以执行表示为Ubuntu
1
lsb_release -a
执行下面命令可以看出Ubuntu的版本
1
cat /etc/issue

更进一步的内核信息

内核名称
1
uname -s
结点名称
1
uname -n
内核发行号
1
uname -r
处理器类型
1
uname -p
操作系统
1
uname -o

Ubuntu——自动加载bashrc

本文描述了如何为Ubuntu用户创建默认的~~/.bashrc并设置自动加载~~/.bashrc

创建.bashrc

如果.bashrc存在,则无需创建,很多程序安装时可能会自动创建,否则,需要我们复制一个
复制命令
1
cp /etc/skel/.bashrc ~/
亲测,无需复制,创建一个新的即可

使.bashrc生效

暂时生效

用户重新登录不会生效

1	source ~/.bashrc

永久生效

用户登录后默认生效

新建或打开文件
1
vim ~/.profile

添加下面的语句

# ~/.profile: executed by Bourne-compatible login shells.
 
if [ "$BASH" ]; then
  if [ -f ~/.bashrc ]; then
    . ~/.bashrc
  fi
fi
 
mesg n

保存后退出,以后默认的,我们登录后~/.bashrc即可生效
马上生效~/.profile
1
source ~/.profile

Linux——rpm和deb包的区别

Linux系统管理之rpm命令的使用

帮助信息

执行man rpm可获取rpm命令的详细帮助信息

Centos

yum是用于安装和管理RPM包的
RPM包是一种预先在linux机器上被打包好的文件,文件后缀为.rpm,类似于Ubuntu上的deb

yum和rpm的区别

yum和rpm都是管理RPM包的
yum可以联网下载需要的RPM包
yum自己可以处理依赖

Centos安装deb包

安装alien

# download alien source code
# uncompress source code
tar -zxvf alien_x.xx.tar.gz
cd alien
# compile
make 
make install

转换deb包为rpm包

1 2	# generate a rpm package with name xxx.rpm alien -r xxx.deb

安装rpm包
1
rpm -ivh xxx.rpm

Ubuntu

apt-get是用于管理deb包的

Ubuntu上安装rpm包

安装alien
1
sudo apt-get install alien

转换

1 2	# generate a deb package with name xxx.deb sudo alien xxx.rpm

安装包
1
sudo dpkg -i xxx.deb
说明
- 不是所有的RPM包都能通过alien成功转换成deb包并成功安装的,能找到deb包的最好使用deb包安装

总结

Ubuntu使用deb包(apt-get, dpkg),Centos使用RPM包(yum, rpm)
deb包和RPM包可互相转换(使用alien包转换即可)

DL——BERT

参考博客:
- 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
- BERT详解
BERT论文: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT之前

Word2Vec的缺点

多义词问题 : 传统的Word Embedding无法识别多义词
- 确切的说是所有词的固定表征的方式(静态方式)的缺点
- 所谓静态指的是训练好之后每个单词的表达就固定住了

从Word Embedding到ELMo

ELMo, Embedding from Language Models
根据当前上下文对Word Embedding动态调整的思路

ELMo 论文原文: NAACL 2018 Best Paper, Deep contextualized word representations
ELMo的本质思想：
- 事先用语言模型学好一个单词的Word Embedding，此时多义词无法区分
- 实际使用Word Embedding的时候，单词已经具备了特定的上下文了，这个时候我可以根据上下文单词的语义去调整单词的Word Embedding表示
- 这样经过调整后的Word Embedding更能表达在这个上下文中的具体含义，自然也就解决了多义词的问题了
ELMo是典型的两阶段训练过程: 预训练 + 特征融合?
- 第一个阶段是利用语言模型进行预训练
- 第二阶段通过基于特征融合的方式训练
ELMo预训练过程示意图
ELMo预训练后如何处理下游任务?
- 预训练训练完成后, 模型训练时使用在线特征抽取,和特征集成的方式对词向量在不同的上下文中进行不同的修正,从而区分多义词

补充知识: 下游任务

下游任务包括很多, 整体上可以分为四大类

序列标注

分词
POS Tag
NER
语义标注
…

分类任务

文本分类
情感计算
…

句子关系判断

Entailment
QA
自然语言推理
…

机器翻译

机器翻译
文本摘要
…

预训练模型

预训练模型是什么?
- 预训练模型是指在训练结束是结果比较好的一组权重值,研究人员分享出来供他人使用,基于这些预训练好的权重可以提升我们的模型训练速度和精度
- 预训练模型能够成功的本质是我们假设预训练模型足够好, 能学到句子的所有信息(包括序列信息等)
两阶段预训练模型如何处理下游任务?
- 预训练与下游任务无关
  - 预训练阶段是预训练模型自己选择相应的NLP任务,然后让模型在学习处理这些任务的途中实现参数的训练
  - 比如BERT选择的就是MLM(屏蔽语言模型)和NSP(Next Sentence Predition, 下一个句子预测)两个任务来做预训练
- 不同的下游任务往往需要修改第二阶段中的模型结构等
- 为适应不同的下游任务, 第二阶段可能使用不同结构, 比如添加Softmax层等方式

ELMo的优缺点

优点:
- 很好的解决了多义词问题,而且效果非常好
- 采用上下文来训练词(从上下文预测单词, 上文称为Context-before, 下文称为Context-after)
缺点:
- 特征提取器没有使用新贵Transformer, 而是传统的LSTM, 特征抽取能力不足

从Word Embedding到GPT

GPT, Generative Pre-Training

ELMo的训练方法和图像领域的预训练方法对比,模式不同, ELMo使用的是基于特征融合的预训练方法
GPT使用的预训练方法则是在NLP领域开创了和图像领域一致的预训练方法基于Fine-tuning的模式
GPT也采用两阶段过程: 预训练 + Fine-tuning
- 第一个阶段是利用语言模型进行预训练
- 第二阶段通过Fine-tuning的模式训练
GPT预训练后如何处理下游任务?
一些下游任务的Fine-tuning结构

GPT的优缺点

优点:
- 特征提取器是Transformer,不是RNN, 所以特征提取效果好
缺点
- GPT使用的是单向语言模型 : 也就是说只用到了上文来预测词
- 词嵌入时没有单词的下文, 失去了很多信息

BERT结构和原理

下面的讲解都将按照原论文的思路讲解

BERT(Bidirectional Encoder Representations from Transformers), 原文 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
下图是BERT与GPT和ELMo对比的结构图
- 图中的每个 Trm 组件就是一个 Transformer 的Encoder部分,也就是下图中的左半部分

BERT的特点

一体化特征融合的双向(Bidirectional)语言模型
- 利用语言的双向信息
- GPT是单向语言模型, 只能利用一个方向的信息
- ELMo也是双向语言模型,但是 ELMo实际上是两个方向相反的单向语言模型的拼接, 融合特征的能力比BERT那种一体化的融合特征方式弱
特征提取器:
- 使用Transformer(实际上使用的是Transformer的Encoder部分, 图中每个)
预训练任务:
- 屏蔽语言模型(MLM, Masked Language Model) + 相邻句子判断(NSP, Next Sentence Prediction)两个任务的多任务训练目标
训练数据量:
- 超大规模的数据训练使得BERT结果达到了全新的高度
- 可以使用BERT作为词嵌入(Word2Vec)的转换矩阵, 实现比其他词嵌入模型更好的结果

输入表示

输入结构图
BERT输入是一个512维的编码向量, 是三个嵌入特征的单位和

WordPiece嵌入

对应图中的Token Embedding
WordPiece是指将单词划分成一组有限的公共子词单元，能在单词的有效性和字符的灵活性之间取得一个折中的平衡
举例: 原文中 “playing” 被拆分成了 “play” 和 “##ing” 两部分

Segment Embedding

分割嵌入

对应图中的Segment Embedding
用于区分两个句子，例如B是否是A的下文(对话场景，问答场景等)
对于句子对，第一个句子的特征值是0，第二个句子的特征值是1, 从而模型可以表达出词出现在前一个句子还是后一个句子

Position Embedding

位置嵌入

对应图中的 Position Embedding
位置嵌入是指将单词的位置信息编码成特征向量
这是继承自论文Google Brain, NIPS 2017: Attention Is All You Need中, 文章中的Transformer架构没有使用RNN,不能编码位置信息,就是在进入Attention前使用了词嵌入 + 位置嵌入的方式让模型能够表达位置信息的

预训练

通常预训练是指在训练阶段让模型去解决自然语言任务, 从而训练完成后得到可移植到其他模型(或者当前模型)使用的参数(包括词向量等)
BERT的预训练使用了两个NLP任务: MLM + NSP
BERT预训练和使用概览:
- 从上图可以看出, BERT的预训练包含了两方面的任务, NSP和 MLM
- 实验证明, MLM 优于标准的 LTR(left-to-right)语言模型(OpenAI GPT 使用的就是这个)

屏蔽语言模型(MLM)

Masked Language Model

Masked Language Model(MLM)核心思想取自Wilson Taylor在1953年发表的一篇论文“Cloze Procedure”: A New Tool for Measuring Readability
在训练的时候随机从输入预料上屏蔽(Mask)掉一些单词，然后通过的上下文预测该单词(“完形填空”)
传统的语言模型是Left-to-Right(LTR)或者是Right-to-Left(RTL)的, 和 RNN 结构匹配
MLM 的性质和 Transformer 的结构匹配
BERT实验中, 有15%的WordPiece Token句子会被屏蔽掉, 在屏蔽的时候,又有不同的概率
如果已经选中(15%概率)要屏蔽 my dog is hairy 中的 hairy, 那么我们的处理方式是:
- 80%： my dog is hairy -> my dog is [MASK]
- 10%： my dog is hairy -> my dog is apple
- 10%： my dog is hairy -> my dog is hairy
- 防止句子中的某个Token 100%都会被mask掉，那么在Fine-tuning的时候模型就会有一些没有见过的单词
- 加入随机Token的原因是因为Transformer要保持对每个输入Token的分布式表征，否则模型就会记住这个[MASK]是 Token “hairy”
- 错误单词带来的负面影响: 一个单词被随机替换掉的概率只有 $15% \times 10% = 1.5%$ 这个负面影响其实是可以忽略不计的
另外: 文章指出每次只预测15%的单词，因此模型收敛的比较慢

为什么使用MLM

因为效果好,解释就是MLM更符合Transformer的结构
论文中的实验结果:
- MNLI(Multi-Genre Natural Language Inference)是多类型自然语言推理任务, 是一个大规模的众包蕴含分类任务, 给定一个句子,目标是预测第二句相对与第一句是一个蕴含语句, 矛盾语句, 还是中性语句
- 从图中可以看出,在MNLI任务中, MLM预训练 + MNLI Fine-tuning 的效果明显优于 LTR预训练 + MNLI Fine-tuning 的效果

相邻句子预测(NSP)

Next Sentence Prediction

NSP 的任务是判断句子B是否是句子A的下文
图中的[CLS]符号就是用于分类的, 如果是的话输出’IsNext‘，否则输出’NotNext‘
训练数据的生成方式是从平行语料中随机抽取的连续两句话，其中50%保留抽取的两句话，它们符合IsNext关系，另外50%的第二句话是随机从预料中提取的，它们的关系是NotNext的
举例来说:
- Input = [CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]
- Label = IsNext
- Input = [CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]
- Label = NotNext

Fine-tuning 处理下游任务

Fine-tining, 中文也称为微调

下图是BERT在不同任务的的微调方法
第二阶段，Fine-Tuning阶段，这个阶段的做法和GPT是一样的。当然，它也面临着下游任务网络结构改造的问题，在改造任务方面Bert和GPT有些不同
- 句子类关系任务: 和GPT一样,增加起始和终结符号,输出部分Transformer最后一层每个单词对应部分都进行分类即可
- 除了生成任务外, 其他任务Bert都涉及到了

BERT的使用

Google公开了两个不同规模的 BERT模型:
- ** $BERT_{BASE}$ ** : 110M模型参数
- ** $BERT_{LARGE}$ ** : 340M模型参数
同时公开了两个模型在大规模数据预训练后的参数集合, 供开发者下载和使用

基于BERT的新秀

Token仍然使用词, 但是MLM屏蔽时选择屏蔽短语或者实体

ERNIE from Baidu

参考文章: [ERNIE: Enhanced Representation through Knowledge Integration]
核心思想:
- 用先验知识来加强预训练模型(考虑实体,短语等级别的屏蔽)
- 在BERT的预训练阶段, MLM模型中屏蔽一个实体(Entity)或者短语(Phrase)而不是屏蔽一个字(Word)
文中提出三种级别的屏蔽方式
- 基本级别(Basic-level)
- 实体级别(Entity-level)
- 短语级别(Phrase-level)

实验对比

ERINE from THU

参考文章: ERNIE: Enhanced Language Representation with Informative Entities
核心思想:
- 利用先验知识来加强预训练模型(引入知识图谱)
- 提出了将知识纳入语言表达模型的方法
- 使用知识聚合器(Knowledgeable aggregator)和预训练任务 dEA, 更好的融合来自文本和知识图谱的异构信息
知识信息
模型架构

DL——CTR预估负样本采样修正

适用场景

在CTR预估模型中，通常需要对负样本进行采样，以提升训练效率
负样本采样会改变样本分布，从而导致预估均值出现偏差

问题描述

假设对负样本进行采样，此时数据分布（正负样本比例）会发生改变，为了保证预估均值，需要对模型进行修正

修正方式

修正方式一般有两种

训练时修正

灵活，可以在训练时考虑到修正，保证训练后的模型可以直接使用
训练后修正
不常用，需要记录训练时的采样率等，容易出现问题

推导

训练时修正推导

假设原始样本数，正样本数，负样本数分别为 $N,N_p,N_n$
采样前：
- 令正样本概率为 $p = \frac{N_p}{N}$，则有 $1-p = \frac{N_n}{N}$
- 进一步有： $\frac{p}{1-p} = \frac{N_p}{N_n}$
按照比例 $r$ 对负样本进行采样后剩下负样本数为 $r\cdot N_n$：
- 同理有： $\frac{p’}{1-p’} = \frac{N_p}{N_n/r} = r\cdot\frac{N_p}{N_n}$
假定CTR的输出经过sigmoid激活函数输出概率值
为了保证预估时可以使用如下公式：
$$ p = \frac{1}{1+e^{-wx}} $$
需要满足的训练公式为：
$$ p‘ = f(x) $$
求解 $f$ 的流程如下：
- 由sigmoid函数($p = \frac{1}{1+e^{-wx}}$)的定义可得：
  $$ wx = ln \frac{p}{1-p} $$
- 又因为：
  $$
  \frac{p}{1-p} = \frac{N_p}{N_n} \\
  \frac{p’}{1-p’} = \frac{1}{r}\cdot\frac{N_p}{N_n} \\
  ln(\frac{p’}{1-p’}) = ln(\frac{1}{r}\cdot\frac{p}{1-p}) = ln(\frac{1}{r}) + ln(\frac{p}{1-p}) \\
  $$
- 所以有:
  $$ ln(\frac{p’}{1-p’}) = ln(\frac{1}{r}) + ln(\frac{p}{1-p}) = ln(\frac{1}{r}) + wx $$
- 于是有预估时的公式为：
  $$ p’ = \frac{1}{1+e^{-(wx+ln(\frac{1}{r}))}} $$
综上所述，训练时下面的式子训练：
$$ p’ = \frac{1}{1+e^{-(wx+ln(\frac{1}{r}))}} $$
预估时可以按照下面的式子预估：
$$ p = \frac{1}{1+e^{-wx}} $$

训练后修正的推导

由两者的定义可以推导如下：
$$
\frac{p}{1-p} = \frac{N_p}{N_n} \\
\frac{p’}{1-p’} = \frac{1}{r}\cdot\frac{N_p}{N_n} \\
$$
进一步有：
$$
\frac{p’}{1-p’} = \frac{1}{r}\cdot\frac{p}{1-p} \\
\frac{p}{1-p} = r \cdot \frac{p’}{1-p’} = \frac{r \cdot p’}{1-p’} \\
$$
调整位置得到：
$$
\frac{1-p}{p} = \frac{1-p’}{r \cdot p’} \\
$$
即：
$$
\frac{1}{p} - 1 = \frac{1-p’}{r \cdot p’} \\
$$
进而有：
$$
\frac{1}{p} = \frac{r \cdot p’+1-p’}{r \cdot p’} \\
$$
最终得到：
$$
p = \frac{r \cdot p’}{r \cdot p’+1-p’} \\
p = \frac{ p’}{p’+\frac{1-p’}{r}}\\
$$
综上所述，训练时下面的式子训练：
$$ p’ = \frac{1}{1+e^{-wx}} $$
预估时可以按照下面的式子预估：
$$ p = \frac{ p’}{p’+\frac{1-p’}{r}} $$

DL——WandB使用笔记

参考链接：
- wandb使用教程-知乎专栏

整体介绍

WandB（Weights & Biases）是一个用于机器学习/深度学习项目的实验跟踪、可视化和模型管理的工具
- 实验跟踪 ：超参数、训练 Loss、评估 Loss 和其他自定义指标
  - 注：可实时更新图表和指标
- 可视化 ：生成如 Loss 曲线和 AUC 曲线等，同时可以可视化权重分布或特征
  - 注：还可以使用 plt 等自定义曲线并上报在 WandB 上生成
- 模型管理 ：保存和共享模型的所有相关文件，包括权重文件、配置文件和环境设置，方便重新训练或共享
  - 注：支持模型版本控制，可对模型版本进行跟踪，比较不同模型的性能
- 团队协作 ：团队成员可以查看实验结果和进度
- 资源监控 ：可以监控GPU使用率、内存占用等系统资源
  - 注：原生的 Torch 等没有这种 Profile 功能
WandB 具有强大的兼容性 ：
- 适配 Jupyter、TensorFlow、PyTorch、Keras、Scikit-learn、LightGBM、XGBoost 等多种框架

基本使用流程介绍

首先在wandb官网注册账号并获取API key，使用命令wandb login进行登录
使用wandb.init()启动新项目，通过wandb.config跟踪超参数
在训练过程中，使用wandb.log()记录指标，使用wandb.summary()添加最终结果
最后使用wandb.finish()结束实验
基本代码示例见附录

WandB API `wandb.log()`

整体定义

wandb.log() API用于记录和可视化实验指标、模型参数等数据，其基本定义为：
1
wandb.log(data, step=None, commit=True, sync=False)

`data`参数（必需）

字典（dict）类型，指定要记录的数据，键为字符串（指标名称），值可以是多种类型：
- 原生类型 ：如 int, float等，用于记录损失、准确率等随训练迭代变化的值
- 图像：wandb.Image() 对象，上传图片后可以根据 step 拉杆选择指定 step 的图片查看
- 表格：wandb.Table() 对象
- 直方图 ：wandb.Histogram() 对象
- 其他 WandB 对象 ：如音频、视频、文本等均可

代码示例：

# 记录标量值
wandb.log({"loss": 0.235, "accuracy": 0.92})
# 记录图像
img = wandb.Image("path/to/image.jpg", caption="Sample Image")
wandb.log({"examples": img})

`step`参数（可选）重点参数

类型为整数（int），用于手动指定当前记录的全局步数（如迭代次数、轮数）。若不指定，WandB 会自动递增
注意点1 ：若 step 参数缺失，则每次调用都会自动生成新的 step（step 自动加 1）
- 常见问题：一个 step 中，多次调用 wandb.log() 但不明确传入 step 参数，此时模型会错误的认为每次调用 wandb.log() 都是一个新的 step
注意点2 ：新增的 step 必须大于等于已有 step 的最大值
- 若开始调用时使用了 step=400 的值，则以后再调用 step=300 时是不会记录数据的，如果是依次调用 step=1，step=10，step=8，则仅保留step=1 和 step=10 的数据（step=8会消失）
- 新增的最小单元是：指标 x step；也就是说，无论是指标还是 step 变化，都算是新增
- 任意指标新增 step 时，都不能小于当前所有指标的最大 step，但是如果这个指标的这个 step 已经存在，则是可以被修改的
注意点3 ：多次上传同一 step 会覆盖之前的值
- 重复上传相同 step ，且仅会覆盖之前的值（仅针对相同指标）
使用建议：在需要管理多个指标时，建议加上 step 参数

`commit`参数（可选）

布尔值（bool），默认 True，用于决定是否立即将当前日志提交到 WandB 服务器
- 若为 False，则缓存日志，直到下一次 commit=True 或手动调用 wandb.log()

`sync`参数（可选）

布尔值（bool），默认 False，用于决定是否强制立即同步所有缓存的日志到服务器（即使 commit=False）

使用技巧笔记

使用 wandb.init(mode="offline") 可在本地保存日志，后续手动同步
WandB 免费版有每月 10GB 存储限制，大量图片可能快速耗尽配额，建议上传前压缩图片（如 wandb.Image(img, mode="L") 转为灰度图）
WandB 可以部署到本地 Docker 上以保证数据安全

附录：WandB会存储哪些信息？

config.yaml

存储训练任务的配置参数（超参数），例如：
- 模型架构参数（如层数、神经元数量）
- 训练参数（学习率、批次大小、迭代次数）
- 数据路径、预处理设置
- 优化器配置（如SGD、Adam的参数）
- Python 版本信息
用于记录实验的完整配置，便于复现和对比不同实验
注：wandb.config 中配置的参数都会在 config.yaml 中出现

output.log

包含训练过程中的标准输出日志
注意：初始化了 WandB 后，标准输出会自动记录下来并上传

requirements.txt

记录项目依赖的 Python 库及其版本，例如：
1
2
3
torch==2.0.0
numpy==1.24.0
pandas==2.0.3
用于确保实验环境可复现，其他用户可通过该文件安装相同依赖
与本地 pip list 结果完全一致

wandb-metadata.json

包含 WandB 自动生成的元数据，例如：
- 实验启动时间、持续时长
- 运行环境信息（操作系统、Python版本）
- 硬件信息（CPU/GPU型号、内存）
- 代码仓库信息（如Git commit哈希）
用于记录实验的环境上下文，便于追溯和管理

示例：

{
    "os": "macOS-14.4.1-x86_64-i386-64bit",
    "python": "CPython 3.10.0",
    "startedAt": "2024-05-27T06:36:31.346712Z",
    "program": "/Users/xxx/wandb_demo.py",
    "email": "xxx@gmail.com",
    "root": "/Users/xxx/xxx/",
    "host": "MBP-xxx.local",
    "executable": "/Users/xxx/envs/xxx/bin/python"
}

wandb-summary.json

存储训练过程中的关键指标 Summary
用于快速查看实验结果，无需解析完整日志

附录：代码示例

一个简单的使用 WandB 的代码示例：

import random
import wandb
import time

# Start a new wandb run to track this script.
run = wandb.init(
    # entity="xxx", 不指定该项时默认走登录账号默认的组织
    project="wandb-demo-project", # Set the wandb project where this run will be logged.
    name="jiahong_sleep_log", # exp name，如果不指定则默认生成一个
    config={ # Track hyperparameters and run metadata. 会存储到 config.yaml中
        "learning_rate": 0.04,
        "dataset": "gsm8k",
        "epochs": 1,
    },
)

def model_step_simulation(step):
    acc = 1 - 2 ** -step - random.random() / step - offset
    loss = 2 ** -step + random.random() / step + offset
    return acc, loss

# Simulate training.
steps = 50
offset = random.random() / 5
for step in range(2, steps):
    acc, loss = model_step_simulation(step) # 真实场景这里会进行模型训练
    time.sleep(2)

    # Log metrics to wandb.
    wandb.log({"acc": acc, "loss": loss}) # 上报 scalar 图，这里会生成两个图
    print(f"step: {step}, loss: {loss}") # 打印到标准输出，可在 output.log 中查看

# Finish the run and upload any remaining data.
wandb.finish()

DL——模型压缩技术

模型压缩

模型压缩（Model Compression）技术包含模型量化、蒸馏、剪枝等
有时候模型量化和蒸馏会同时使用
剪枝不常见

模型量化

模型量化（Model Quantization），是一种将模型中的权重和激活从浮点数（高位宽）转换为低精度（低位宽）的表示的方法，如8位整数（INT8）
数值上来看，量化是将连续值离散化的过程
参考链接：
- TinyML —— 模型量化（quantization）
- B站北大学生汇报：模型量化加速
- QLoRA: 训练更大的GPT

线性量化与非线性量化

线性量化(linear quantization)，也叫仿射量化(affine quantization)或者均匀量化
- 我们很容易给出量化公式：
  其中，r(real value)值得是量化前的值，q(quantized value)是量化后的值，s(scale)是放缩比例，z(zero point)相当于是一个偏移量
非线性量化（nonlinear quantization），也叫作非均匀量化

对称量化与非对称量化

对称量化(symmetric quantization)：映射前后0点相同
非对称量化(asymmetric quantization)：映射前后0点不相同

量化粒度

Per-Tensor Quantization（逐张量量化）：
- 这是最简单的量化方式，对整个张量（即模型中的一个参数矩阵或输入数据）使用相同的量化参数（比如最小值和最大值，或者量化因子）
- 由于所有值共享相同的量化参数，因此这种方法的精度较低，但计算简单，存储和传输效率高
Per-Channel Quantization（逐通道量化）：
- 在这种量化方式中，每个通道（对于卷积神经网络中的滤波器来说，通道通常指的是滤波器输出的不同颜色或特征）使用不同的量化参数
- 这种方法比逐张量量化更精细，因为不同的通道可能具有不同的值范围，因此可以独立地进行量化，以保持每个通道的精度
- 因为有研究发现不同Channel的参数量级差距较大
Per-Layer Quantization（逐层量化）：
- 逐层量化意味着网络中的每一层都有自己的量化参数集
- 这种方法允许每一层根据其激活值的范围独立地进行量化，这可能比逐张量量化提供更好的精度，但比逐通道量化的计算成本要低
Per-Axis Quantization（逐轴量化）：
- 这种量化方式通常用于多维张量，比如二维的权重矩阵。在这种情况下，”axis”可以指特定的维度，比如行或列
- 逐轴量化意味着沿着张量的一个或多个维度，量化参数是不同的。例如，在二维张量中，可以对每一行或每一列使用不同的量化参数

量化方式（PTQ vs QAT）

PTQ(Post training quantization)，后训练量化，训完的模型直接量化，然后进行推理
QAT(Quantization aware training)，量化感知训练，训练完的模型加载到内存，进行微调后再用于推理
- LLM常用的思路就是float16训练base模型并存储，SFT时使用INT8量化并使用LoRA微调模型，然后存储LoRA参数，推理时加载base模型(INT8量化加载)和LoRA参数一起推理

量化位宽

统一位宽
混合精度

量化模型训练梯度

梯度回传时量化是离散的，梯度为0，实际上可以设置为1，因为量化一般是阶梯函数，类似于线性的

模型蒸馏

模型蒸馏通常也叫作知识蒸馏（Knowledge Distillation），模型蒸馏泛指整个蒸馏技术框架，两者通常可以视作同一概念，但在一些特定的场景上会有微小差别
- 模型蒸馏更倾向于表达模型压缩的思想，强调从大模型（教师模型）迁移知识到小模型（学生模型）的过程
- 知识蒸馏更专注于将教师模型的知识（如输出分布、中间特征）传递给学生模型，不强调模型压缩，目标是提升学生模型的泛化能力
模型蒸馏（Model Distillation），主要包含Logits蒸馏和特征蒸馏两大类
参考链接：知识蒸馏算法汇总

知识蒸馏有两大类：一类是logits蒸馏，另一类是特征蒸馏。logits蒸馏指的是在softmax时使用较高的温度系数，提升负标签的信息，然后使用Student和Teacher在高温softmax下logits的KL散度作为loss。中间特征蒸馏就是强迫Student去学习Teacher某些中间层的特征，直接匹配中间的特征或学习特征之间的转换关系。例如，在特征No.1和No.2中间，知识可以表示为如何模做两者中间的转化，可以用一个矩阵让学习者产生这个矩阵，学习者和转化之间的学习关系。这篇文章汇总了常用的知识蒸馏的论文和代码，方便后续的学习和研究

Logits蒸馏

关注输出层
也叫作基于反馈的知识蒸馏
学生模型被训练以模仿教师模型的输出概率分布。通过最小化两个模型输出概率分布之间的KL散度（或其他相似性度量），学生模型学习教师模型的“软目标”，即对每个类别的概率预测，而不是单一的预测标签
损失函数 ：一般实现时，除了损失函数一般还会考虑真实的预测标签，以多分类模型为例，输出是一个概率分布（例如，经过 softmax 后的 $ K $ 维向量），教师模型和学生模型的输出概率分布可以表示为：
- 教师模型的输出：$ P_T = [p_T^1, p_T^2, \dots, p_T^K] $
- 学生模型的输出：$ P_S = [p_S^1, p_S^2, \dots, p_S^K] $
- 损失函数包括：
  - KL散度损失 ：
    $$
    L_{KD} = T^2 \cdot D_{KL}(P_T || P_S) = T^2 \cdot \sum_{i=1}^K p_T^i \log \frac{p_T^i}{p_S^i}
    $$
    - 其中 $T$ 为维度系数
  - 交叉熵损失 ：
    $$
    L_{CE} = - \sum_{i=1}^K y_i \log p_S^i
    $$
    - 其中，$ y_i $ 是真实标签的 one-hot 编码
  - 总损失 ：
    $$
    L = \alpha \cdot L_{KD} + (1 - \alpha) \cdot L_{CE}
    $$

特征蒸馏

关注中间层
也叫作基于特征的知识蒸馏
学生模型被训练以模仿教师模型在中间层的激活或特征图。这通常通过最小化两个模型对应层的特征表示之间的距离（如L2距离或cosine相似度）来实现
损失函数 ：特征蒸馏的总损失函数通常结合特征蒸馏损失和任务损失（如分类损失）：
$$
L = \alpha \cdot L_{Feature} + (1 - \alpha) \cdot L_{Task}
$$
- 其中：
  - $ L_{Feature} $ 是特征蒸馏损失（如 MSE、余弦相似度等）
  - $ L_{Task} $ 是任务损失（如交叉熵损失）
  - $ \alpha $ 是权重系数，用于平衡两部分损失

LLM的蒸馏

在A Survey on Model Compression for Large Language Models中，将知识蒸馏分为黑盒知识蒸馏和白盒知识蒸馏两类
黑盒知识蒸馏 ：通常表示对ChatGPT，GPT4等黑盒LLM模型教师模型进行蒸馏，黑盒蒸馏使用教师模型的输出token作为监督来优化学生模型，蒸馏手段包含了基于CoT（Chain-of-Thought）的知识蒸馏、基于语境学习（In-Context Learning）的蒸馏和基于指令跟随（Insruction Following）的知识蒸馏
白盒知识蒸馏 ：通常表示对白盒LLM教师模型内部的结构和知识进行蒸馏
Deepseek-R1技术报告中的蒸馏是直接采用Deepseek-R1训练过程中收集到的80W数据对开源的模型（如qwen，llama等）做SFT

模型剪枝

Model Pruning
通过删减网络结构然后调整分布实现模型压缩，剪枝方法不常用

Git——HuggingFace的使用

LFS 环境安装

配置 HuggingFace 环境需要安装 git lfs
LFS全称 Large File Storge，即大文件存储，可以帮助我们管理比较大的文件

Ubuntu安装

1
2
3

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs
git lfs install

拉取 HuggingFace 项目（包含 git 文件）

执行拉取操作
1
git clone https://huggingface.co/xxx/xxx
- 该命令可在 HuggingFace 网站每个项目的首页 ... 选项的 clone repository 中查找到
- git clone 命令可以将整个项目下载下来，但是下载大的文件时可能会特别慢，最佳实践是：
  - 使用 git clone xxx 下载项目文件，待除大文件外的其他文件下载结束时结束命令
    - 一些未完成的项目会出现在 .git/lfs/incomplete 文件夹下，结束命令后可以删除该文件夹，该文件夹可能会存储较大的未完成文件，浪费存储
  - 使用网页或其他方式下载较大的模型权重文件到指定目录下

使用 `huggingface-cli` 命令下载数据和模型（基础）

安装
1
pip install huggingface-hub

模型下载

1	huggingface-cli download Qwen/Qwen2.5-0.5B-Instruct --local-dir ./Qwen2.5-0.5B-Instruct

数据下载

1	huggingface-cli download openai/gsm8k --repo-type=dataset --local-dir ./gsm8k --local-dir-use-symlinks False

重点：增加了 --repo-type=dataset 参数，否则默认是搜索模型

--local-dir-use-symlinks 的特别说明：
- 当 --local-dir-use-symlinks 设置为 True（默认值）时，工具会优先创建符号链接指向缓存目录中的文件，而不是直接复制文件到 --local-dir 指定的目录。这样可以节省磁盘空间，但依赖于系统对符号链接的支持
- 当 --local-dir-use-symlinks 设置为 False 时，工具会直接将文件复制（而非创建符号链接）到 --local-dir 指定的目录。这会占用更多磁盘空间，但保证了文件在目标目录中是真实存在的实体文件，不依赖符号链接机制，兼容性更好（尤其在 Windows 系统或某些不支持符号链接的环境中）
- 实际上，ubuntu 下，亲测这个参数也可以不加，加不加没发现不同

使用 `hf` 命令下载数据和模型（大模型推荐，并行化）

安装
1
pip install -U "huggingface_hub[cli]"
用法与 huggingface-cli 几乎完全相同，但速度更快

模型下载：

1	hf download Qwen/Qwen2.5-0.5B-Instruct --local-dir ./Qwen2.5-0.5B-Instruct

数据下载：

1	hf download openai/gsm8k --local-dir ./gsm8k --repo-type=dataset --local-dir-use-symlinks False

其他需要注意的点

如果直接使用 transformers 包下载 Bert 等预训练模型时，默认安装在 ~/.cache/huggingface/hub 文件夹下

附录：使用 modelscope 下载模型（国内推荐）

安装
‵‵‵bash
pip install modelscope

1
2
3

* 模型下载命令
    ```bash
    modelscope download --model Qwen/Qwen2.5-0.5B-Instruct  --local_dir ./Qwen2.5-0.5B-Instruct

注意：这里不能使用 --local-dir，必须是 --local_dir

Joe Zhou

Stay Hungry. Stay Foolish.

GitHub E-Mail

mv操作中断

硬链接与软链接

防火墙总结

Centos6

查看防火墙状态

关闭防火墙

打开防火墙

Centos7

安装

配置文件

关于systemctl的使用

查看防火墙状态

查看防火墙服务

开机启动

启动防火墙服务

关闭防火墙服务

端口相关操作命令

防火墙的域

域的作用

域的操作

防火墙与SSH登录

系统类型和版本

Centos

Ubuntu

更进一步的内核信息

创建.bashrc

使.bashrc生效

暂时生效

永久生效

帮助信息

Centos

yum和rpm的区别

Centos安装deb包

Ubuntu

Ubuntu上安装rpm包

总结

BERT之前

Word2Vec的缺点

从Word Embedding到ELMo

补充知识: 下游任务

序列标注

分类任务

句子关系判断

机器翻译

预训练模型

ELMo的优缺点

从Word Embedding到GPT

GPT的优缺点

BERT结构和原理

BERT的特点

输入表示

WordPiece嵌入

Segment Embedding

Position Embedding

预训练

屏蔽语言模型(MLM)

为什么使用MLM

相邻句子预测(NSP)

Fine-tuning 处理下游任务

BERT的使用

基于BERT的新秀

ERNIE from Baidu

实验对比

ERINE from THU

适用场景

问题描述

修正方式

训练时修正

训练后修正

推导

训练时修正推导

训练后修正的推导

整体介绍

基本使用流程介绍

WandB API wandb.log()

整体定义

data参数（必需）

step参数（可选）重点参数

commit参数（可选）

sync参数（可选）

WandB API `wandb.log()`

`data`参数（必需）

`step`参数（可选）重点参数

`commit`参数（可选）

`sync`参数（可选）

使用 `huggingface-cli` 命令下载数据和模型（基础）

使用 `hf` 命令下载数据和模型（大模型推荐，并行化）