Jiahong 的个人博客

凡事预则立,不预则废


  • Home

  • Tags

  • Archives

  • Navigation

  • Search

Linux——文件操作

本文记录一些Linux相关文件操作的常见问题


mv操作中断

  • 由于mv操作等价于先执行cp然后执行rm操作
    • 还在cp阶段,原始数据是完整的,删除目标文档就行
    • 如果已经进入rm阶段,那么说明目标文件时完整的,删除原始文件就行

硬链接与软链接

Linux中链接分为两类:硬链接(hard link)和软链接(soft link),软链接又称为符号链接(symbolic link)

  • 如果一个文件有多个硬链接,那么需要所有硬连接都被删除,当前文件才会被删除
    • 原始文件与硬链接是同一个物理地址的两个不同名字
    • 硬链接是相互的(个人理解: 一个普通的文件就可以理解为一个硬链接)
  • 如果一个文件有一个硬链接和多个软链接(符号链接),那么删除符号链接不影响原始文件
    • 只有文件的所有硬链接都没删除后文件才会被删除
    • 文件被删除后软链接也会自动失效,链接路径链接不上

Linux——服务器防火墙配置

本文介绍Linux下服务器防火墙的设置
更详细的描述可以参考博客:https://blog.51cto.com/andyxu/2137046


防火墙总结

  • iptables:内核层面的netfilter网络过滤器来处理
  • firewalld: 交由内核层面的nftables包过滤框架处理

Centos6

Centos6默认使用iptable作为防火墙

查看防火墙状态

1
service iptable status

关闭防火墙

  • 临时

    1
    service iptables stop
  • 永久

    1
    chkconfig iptables off

打开防火墙

  • 临时

    1
    service iptables start
  • 永久

    1
    chkconfig iptables on

Centos7

Centos7默认使用的时firewall作为防火墙, 默认使用systemctl管理服务,接下来介绍systemctl管理firewall服务的操作,其他服务也可用systemctl以类似方法管理,只需将filewall名称换成其他服务名称即可

  • 关于服务名称的命名
    • 一般来说都是正常名称后加上一位’d.service’,比如’firewalld.service’,’mysqld.service’等

安装

  • Centos7自带firewalld
  • Ubuntu:
    1
    sudo apt-get install firewalld

配置文件

  • /usr/lib/firewalld/
    • 系统配置,尽量不修改
  • /etc/firewalld/
    • 用户配置地址

关于systemctl的使用

  • 列出所有服务

    1
    systemctl list-unit-files
  • 列出所有打开的服务

    1
    systemctl list-unit-files|grep enabled
  • 列出某个服务

    1
    systemctl list-unit-files|grep [service name]

查看防火墙状态

1
firewall-cmd --state
  • 输出not running或者running

查看防火墙服务

  • 方法一

    1
    systemctl list-unit-files|grep firewalld.service
    • 输出firewalld.service disabled或者firewalld.service enabled
  • 方法二

    1
    systemctl status firewalld.service
    • 输出更详细的信息

开机启动

  • 禁止

    1
    systemctl disable firewalld.service
  • 允许

    1
    systemctl enable firewalld.service
  • 查看

    1
    systemctl is-enabled firewalld.service;echo $?

启动防火墙服务

  • 启动防火墙后默认只开放22端口,其他端口都关闭

    1
    systemctl start firewalld.service
  • 不能启动的解决方案

    1
    2
    systemctl unmask firewalld.service 
    systemctl start firewalld.service

关闭防火墙服务

  • 1
    systemctl stop firewalld.service

端口相关操作命令

  • 查看所有以开放端口

    1
    firewall-cmd --list-ports
  • 查看某个端口是否开启

    1
    firewall-cmd --query-port=8080/tcp
  • 开放端口

    1
    firewall-cmd --zone=public --add-port=80/tcp --permanent
    • 命令含义:
      • –zone #作用域
      • –add-port=80/tcp #添加端口,格式为:端口/通讯协议
      • –permanent #永久生效,没有此参数重启后失效
  • 重启服务

  • 开放端口后需要重启服务才能生效*

    1
    firewall-cmd --reload
  • 移除指定端口

    1
    firewall-cmd --permanent --remove-port=8080/tcp

防火墙的域

域的作用
  • 一共9种,常用的就一种public,开放时把所有访问该端口的用户当做公共人员,不完全信任,trusted为完全信任:
    • block dmz drop external home internal public trusted work
    • 下面图片来自博客:https://blog.51cto.com/13503302/2095633
  • 在开放端口时,可以为其添加域(默认为public),不同的域代表不同的信任
域的操作
  • 查看默认zone

    1
    firewall-cmd --get-default-zone
  • 修改默认zone

    1
    firewall-cmd --set-default-zone=public

防火墙与SSH登录

默认启动firewall后,防火墙不会打开22端口[已测试],但为何还能正常ssh登录呢?

1
firewall-cmd --list-all

public
target: default
icmp-block-inversion: no
interfaces:
sources:
services: ssh dhcpv6-client
ports:
protocols:
masquerade: no
forward-ports:
source-ports:
icmp-blocks:
rich rules:

  • 从上面的输出中可以看出来ssh服务默认被开启防火墙了,所以无需开启22端口即可使用ssh指令登录到服务器
  • 同时开启的还有dhcpv6-client服务,这个服务用于ipv6的DHCP服务(为什么ipv4不需要这个服务呢?详情参考问答:https://unix.stackexchange.com/questions/176717/what-is-dhcpv6-client-service-in-firewalld-and-can-i-safely-remove-it )

Linux——查看服务器内核和系统版本

本文主要介绍Linux系统的内核版本和系统版本等信息用命令行如何查看


系统类型和版本

Centos

  • 文件存在表示为Centos

    1
    cat /etc/redhat-release
  • 上述指令同时会输出Centos版本

Ubuntu

  • 命令可以执行表示为Ubuntu

    1
    lsb_release -a
  • 执行下面命令可以看出Ubuntu的版本

    1
    cat /etc/issue

更进一步的内核信息

  • 内核名称

    1
    uname -s
  • 结点名称

    1
    uname -n
  • 内核发行号

    1
    uname -r
  • 处理器类型

    1
    uname -p
  • 操作系统

    1
    uname -o

Ubuntu——自动加载bashrc

本文描述了如何为Ubuntu用户创建默认的/.bashrc并设置自动加载/.bashrc


创建.bashrc

  • 如果.bashrc存在,则无需创建,很多程序安装时可能会自动创建,否则,需要我们复制一个

  • 复制命令

    1
    cp /etc/skel/.bashrc ~/
  • 亲测,无需复制,创建一个新的即可


使.bashrc生效

暂时生效

用户重新登录不会生效

1
source ~/.bashrc

永久生效

用户登录后默认生效

  • 新建或打开文件

    1
    vim ~/.profile
  • 添加下面的语句

    1
    2
    3
    4
    5
    6
    7
    8
    9
    # ~/.profile: executed by Bourne-compatible login shells.

    if [ "$BASH" ]; then
    if [ -f ~/.bashrc ]; then
    . ~/.bashrc
    fi
    fi

    mesg n
  • 保存后退出,以后默认的,我们登录后~/.bashrc即可生效

  • 马上生效~/.profile

    1
    source ~/.profile

Linux——rpm和deb包的区别

Linux系统管理之rpm命令的使用


帮助信息

  • 执行man rpm可获取rpm命令的详细帮助信息

Centos

  • yum是用于安装和管理RPM包的
  • RPM包是一种预先在linux机器上被打包好的文件,文件后缀为.rpm,类似于Ubuntu上的deb

yum和rpm的区别

  • yum和rpm都是管理RPM包的
  • yum可以联网下载需要的RPM包
  • yum自己可以处理依赖

Centos安装deb包

  • 安装alien

    1
    2
    3
    4
    5
    6
    7
    # download alien source code
    # uncompress source code
    tar -zxvf alien_x.xx.tar.gz
    cd alien
    # compile
    make
    make install
  • 转换deb包为rpm包

    1
    2
    # generate a rpm package with name xxx.rpm
    alien -r xxx.deb
  • 安装rpm包

    1
    rpm -ivh xxx.rpm

Ubuntu

  • apt-get是用于管理deb包的

Ubuntu上安装rpm包

  • 安装alien

    1
    sudo apt-get install alien
  • 转换

    1
    2
    # generate a deb package with name xxx.deb
    sudo alien xxx.rpm
  • 安装包

    1
    sudo dpkg -i xxx.deb
  • 说明

    • 不是所有的RPM包都能通过alien成功转换成deb包并成功安装的,能找到deb包的最好使用deb包安装

总结

  • Ubuntu使用deb包(apt-get, dpkg),Centos使用RPM包(yum, rpm)
  • deb包和RPM包可互相转换(使用alien包转换即可)

DL——BERT

  • 参考博客:
    • 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
    • BERT详解
  • BERT论文: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT之前

Word2Vec的缺点

  • 多义词问题 : 传统的Word Embedding无法识别多义词
    • 确切的说是所有词的固定表征的方式(静态方式)的缺点
    • 所谓静态指的是训练好之后每个单词的表达就固定住了

从Word Embedding到ELMo

ELMo, Embedding from Language Models
根据当前上下文对Word Embedding动态调整的思路

  • ELMo 论文原文: NAACL 2018 Best Paper, Deep contextualized word representations
  • ELMo的本质思想:
    • 事先用语言模型学好一个单词的Word Embedding,此时多义词无法区分
    • 实际使用Word Embedding的时候,单词已经具备了特定的上下文了,这个时候我可以根据上下文单词的语义去调整单词的Word Embedding表示
    • 这样经过调整后的Word Embedding更能表达在这个上下文中的具体含义,自然也就解决了多义词的问题了
  • ELMo是典型的两阶段训练过程: 预训练 + 特征融合?
    • 第一个阶段是利用语言模型进行预训练
    • 第二阶段通过基于特征融合的方式训练
  • ELMo预训练过程示意图
  • ELMo预训练后如何处理下游任务?
    • 预训练训练完成后, 模型训练时使用在线特征抽取,和特征集成的方式对词向量在不同的上下文中进行不同的修正,从而区分多义词
补充知识: 下游任务

下游任务包括很多, 整体上可以分为四大类

序列标注
  • 分词
  • POS Tag
  • NER
  • 语义标注
  • …
分类任务
  • 文本分类
  • 情感计算
  • …
句子关系判断
  • Entailment
  • QA
  • 自然语言推理
  • …
机器翻译
  • 机器翻译
  • 文本摘要
  • …
预训练模型
  • 预训练模型是什么?
    • 预训练模型是指在训练结束是结果比较好的一组权重值,研究人员分享出来供他人使用,基于这些预训练好的权重可以提升我们的模型训练速度和精度
    • 预训练模型能够成功的本质是我们假设预训练模型足够好, 能学到句子的所有信息(包括序列信息等)
  • 两阶段预训练模型如何处理下游任务?
    • 预训练与下游任务无关
      • 预训练阶段是预训练模型自己选择相应的NLP任务,然后让模型在学习处理这些任务的途中实现参数的训练
      • 比如BERT选择的就是MLM(屏蔽语言模型)和NSP(Next Sentence Predition, 下一个句子预测)两个任务来做预训练
    • 不同的下游任务往往需要修改第二阶段中的模型结构等
    • 为适应不同的下游任务, 第二阶段可能使用不同结构, 比如添加Softmax层等方式
ELMo的优缺点
  • 优点:
    • 很好的解决了多义词问题,而且效果非常好
    • 采用上下文来训练词(从上下文预测单词, 上文称为Context-before, 下文称为Context-after)
  • 缺点:
    • 特征提取器没有使用新贵Transformer, 而是传统的LSTM, 特征抽取能力不足

从Word Embedding到GPT

GPT, Generative Pre-Training

  • ELMo的训练方法和图像领域的预训练方法对比,模式不同, ELMo使用的是基于特征融合的预训练方法
  • GPT使用的预训练方法则是在NLP领域开创了和图像领域一致的预训练方法基于Fine-tuning的模式
  • GPT也采用两阶段过程: 预训练 + Fine-tuning
    • 第一个阶段是利用语言模型进行预训练
    • 第二阶段通过Fine-tuning的模式训练
  • GPT预训练后如何处理下游任务?
  • 一些下游任务的Fine-tuning结构

GPT的优缺点

  • 优点:
    • 特征提取器是Transformer,不是RNN, 所以特征提取效果好
  • 缺点
    • GPT使用的是单向语言模型 : 也就是说只用到了上文来预测词
    • 词嵌入时没有单词的下文, 失去了很多信息

BERT结构和原理

下面的讲解都将按照原论文的思路讲解

  • BERT(Bidirectional Encoder Representations from Transformers), 原文 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
  • 下图是BERT与GPT和ELMo对比的结构图
    • 图中的每个 Trm 组件就是一个 Transformer 的Encoder部分,也就是下图中的左半部分

BERT的特点

  • 一体化特征融合的双向(Bidirectional)语言模型
    • 利用语言的双向信息
    • GPT是单向语言模型, 只能利用一个方向的信息
    • ELMo也是双向语言模型,但是 ELMo实际上是两个方向相反的单向语言模型的拼接, 融合特征的能力比BERT那种一体化的融合特征方式弱
  • 特征提取器:
    • 使用Transformer(实际上使用的是Transformer的Encoder部分, 图中每个)
  • 预训练任务:
    • 屏蔽语言模型(MLM, Masked Language Model) + 相邻句子判断(NSP, Next Sentence Prediction)两个任务的多任务训练目标
  • 训练数据量:
    • 超大规模的数据训练使得BERT结果达到了全新的高度
    • 可以使用BERT作为词嵌入(Word2Vec)的转换矩阵, 实现比其他词嵌入模型更好的结果

输入表示

  • 输入结构图
  • BERT输入是一个512维的编码向量, 是三个嵌入特征的单位和
WordPiece嵌入
  • 对应图中的Token Embedding
  • WordPiece是指将单词划分成一组有限的公共子词单元,能在单词的有效性和字符的灵活性之间取得一个折中的平衡
  • 举例: 原文中 “playing” 被拆分成了 “play” 和 “##ing” 两部分
Segment Embedding

分割嵌入

  • 对应图中的Segment Embedding
  • 用于区分两个句子,例如B是否是A的下文(对话场景,问答场景等)
  • 对于句子对,第一个句子的特征值是0,第二个句子的特征值是1, 从而模型可以表达出词出现在前一个句子还是后一个句子
Position Embedding

位置嵌入

  • 对应图中的 Position Embedding
  • 位置嵌入是指将单词的位置信息编码成特征向量
  • 这是继承自论文Google Brain, NIPS 2017: Attention Is All You Need中, 文章中的Transformer架构没有使用RNN,不能编码位置信息,就是在进入Attention前使用了 词嵌入 + 位置嵌入 的方式让模型能够表达位置信息的

预训练

  • 通常预训练是指在训练阶段让模型去解决自然语言任务, 从而训练完成后得到可移植到其他模型(或者当前模型)使用的参数(包括词向量等)
  • BERT的预训练使用了两个NLP任务: MLM + NSP
  • BERT预训练和使用概览:
    • 从上图可以看出, BERT的预训练包含了两方面的任务, NSP和 MLM
    • 实验证明, MLM 优于标准的 LTR(left-to-right)语言模型(OpenAI GPT 使用的就是这个)
屏蔽语言模型(MLM)

Masked Language Model

  • Masked Language Model(MLM)核心思想取自Wilson Taylor在1953年发表的一篇论文“Cloze Procedure”: A New Tool for Measuring Readability
  • 在训练的时候随机从输入预料上屏蔽(Mask)掉一些单词,然后通过的上下文预测该单词(“完形填空”)
  • 传统的语言模型是Left-to-Right(LTR)或者是Right-to-Left(RTL)的, 和 RNN 结构匹配
  • MLM 的性质 和 Transformer 的结构匹配
  • BERT实验中, 有15%的WordPiece Token句子会被屏蔽掉, 在屏蔽的时候,又有不同的概率
  • 如果已经选中(15%概率)要屏蔽 my dog is hairy 中的 hairy, 那么我们的处理方式是:
    • 80%: my dog is hairy -> my dog is [MASK]
    • 10%: my dog is hairy -> my dog is apple
    • 10%: my dog is hairy -> my dog is hairy
    • 防止句子中的某个Token 100%都会被mask掉,那么在Fine-tuning的时候模型就会有一些没有见过的单词
    • 加入随机Token的原因是因为Transformer要保持对每个输入Token的分布式表征,否则模型就会记住这个[MASK]是 Token “hairy”
    • 错误单词带来的负面影响: 一个单词被随机替换掉的概率只有 \(15% \times 10% = 1.5%\) 这个负面影响其实是可以忽略不计的
  • 另外: 文章指出每次只预测15%的单词,因此模型收敛的比较慢
为什么使用MLM
  • 因为效果好,解释就是MLM更符合Transformer的结构
  • 论文中的实验结果:
    • MNLI(Multi-Genre Natural Language Inference)是多类型自然语言推理任务, 是一个大规模的众包蕴含分类任务, 给定一个句子,目标是预测第二句相对与第一句是一个蕴含语句, 矛盾语句, 还是中性语句
    • 从图中可以看出,在MNLI任务中, MLM预训练 + MNLI Fine-tuning 的效果明显优于 LTR预训练 + MNLI Fine-tuning 的效果
相邻句子预测(NSP)

Next Sentence Prediction

  • NSP 的任务是判断句子B是否是句子A的下文
  • 图中的[CLS]符号就是用于分类的, 如果是的话输出’IsNext‘,否则输出’NotNext‘
  • 训练数据的生成方式是从平行语料中随机抽取的连续两句话,其中50%保留抽取的两句话,它们符合IsNext关系,另外50%的第二句话是随机从预料中提取的,它们的关系是NotNext的
  • 举例来说:
    • Input = [CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]
    • Label = IsNext
    • Input = [CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]
    • Label = NotNext

Fine-tuning 处理下游任务

Fine-tining, 中文也称为微调

  • 下图是BERT在不同任务的的微调方法

  • 第二阶段,Fine-Tuning阶段,这个阶段的做法和GPT是一样的。当然,它也面临着下游任务网络结构改造的问题,在改造任务方面Bert和GPT有些不同

    • 句子类关系任务: 和GPT一样,增加起始和终结符号,输出部分Transformer最后一层每个单词对应部分都进行分类即可
    • 除了生成任务外, 其他任务Bert都涉及到了

BERT的使用

  • Google公开了两个不同规模的 BERT模型:
    • ** \(BERT_{BASE}\) ** : 110M模型参数
    • ** \(BERT_{LARGE}\) ** : 340M模型参数
  • 同时公开了两个模型在大规模数据预训练后的参数集合, 供开发者下载和使用

基于BERT的新秀

  • Token仍然使用词, 但是MLM屏蔽时选择屏蔽短语或者实体

ERNIE from Baidu

  • 参考文章: [ERNIE: Enhanced Representation through Knowledge Integration]
  • 核心思想:
    • 用先验知识来加强预训练模型(考虑实体,短语等级别的屏蔽)
    • 在BERT的预训练阶段, MLM模型中屏蔽一个实体(Entity)或者短语(Phrase)而不是屏蔽一个字(Word)
  • 文中提出三种级别的屏蔽方式
    • 基本级别(Basic-level)
    • 实体级别(Entity-level)
    • 短语级别(Phrase-level)
实验对比

ERINE from THU

  • 参考文章: ERNIE: Enhanced Language Representation with Informative Entities
  • 核心思想:
    • 利用先验知识来加强预训练模型(引入知识图谱)
    • 提出了将知识纳入语言表达模型的方法
    • 使用知识聚合器(Knowledgeable aggregator)和预训练任务 dEA, 更好的融合来自文本和知识图谱的异构信息
  • 知识信息
  • 模型架构

DL——CTR预估负样本采样修正


适用场景

  • 在CTR预估模型中,通常需要对负样本进行采样,以提升训练效率
  • 负样本采样会改变样本分布,从而导致预估均值出现偏差

问题描述

  • 假设对负样本进行采样,此时数据分布(正负样本比例)会发生改变,为了保证预估均值,需要对模型进行修正

修正方式

  • 修正方式一般有两种

训练时修正

  • 灵活,可以在训练时考虑到修正,保证训练后的模型可以直接使用

    训练后修正

  • 不常用,需要记录训练时的采样率等,容易出现问题

推导

训练时修正推导

  • 假设原始样本数,正样本数,负样本数分别为 \(N,N_p,N_n\)

  • 采样前:

    • 令正样本概率为 \(p = \frac{N_p}{N}\),则有 \(1-p = \frac{N_n}{N}\)
    • 进一步有: \(\frac{p}{1-p} = \frac{N_p}{N_n}\)
  • 按照比例 \(r\) 对负样本进行采样后剩下负样本数为 \(r\cdot N_n\):

    • 同理有: \(\frac{p’}{1-p’} = \frac{N_p}{N_n/r} = r\cdot\frac{N_p}{N_n}\)
  • 假定CTR的输出经过sigmoid激活函数输出概率值

  • 为了保证预估时可以使用如下公式:
    $$ p = \frac{1}{1+e^{-wx}} $$

  • 需要满足的训练公式为:
    $$ p‘ = f(x) $$

  • 求解 \(f\) 的流程如下:

    • 由sigmoid函数(\(p = \frac{1}{1+e^{-wx}}\))的定义可得:
      $$ wx = ln \frac{p}{1-p} $$
    • 又因为:
      $$
      \frac{p}{1-p} = \frac{N_p}{N_n} \\
      \frac{p’}{1-p’} = \frac{1}{r}\cdot\frac{N_p}{N_n} \\
      ln(\frac{p’}{1-p’}) = ln(\frac{1}{r}\cdot\frac{p}{1-p}) = ln(\frac{1}{r}) + ln(\frac{p}{1-p}) \\
      $$
    • 所以有:
      $$ ln(\frac{p’}{1-p’}) = ln(\frac{1}{r}) + ln(\frac{p}{1-p}) = ln(\frac{1}{r}) + wx $$
    • 于是有预估时的公式为:
      $$ p’ = \frac{1}{1+e^{-(wx+ln(\frac{1}{r}))}} $$
  • 综上所述,训练时下面的式子训练:
    $$ p’ = \frac{1}{1+e^{-(wx+ln(\frac{1}{r}))}} $$

  • 预估时可以按照下面的式子预估:
    $$ p = \frac{1}{1+e^{-wx}} $$

训练后修正的推导

  • 由两者的定义可以推导如下:
    $$
    \frac{p}{1-p} = \frac{N_p}{N_n} \\
    \frac{p’}{1-p’} = \frac{1}{r}\cdot\frac{N_p}{N_n} \\
    $$
  • 进一步有:
    $$
    \frac{p’}{1-p’} = \frac{1}{r}\cdot\frac{p}{1-p} \\
    \frac{p}{1-p} = r \cdot \frac{p’}{1-p’} = \frac{r \cdot p’}{1-p’} \\
    $$
  • 调整位置得到:
    $$
    \frac{1-p}{p} = \frac{1-p’}{r \cdot p’} \\
    $$
  • 即:
    $$
    \frac{1}{p} - 1 = \frac{1-p’}{r \cdot p’} \\
    $$
  • 进而有:
    $$
    \frac{1}{p} = \frac{r \cdot p’+1-p’}{r \cdot p’} \\
    $$
  • 最终得到:
    $$
    p = \frac{r \cdot p’}{r \cdot p’+1-p’} \\
    p = \frac{ p’}{p’+\frac{1-p’}{r}}\\
    $$
  • 综上所述,训练时下面的式子训练:
    $$ p’ = \frac{1}{1+e^{-wx}} $$
  • 预估时可以按照下面的式子预估:
    $$ p = \frac{ p’}{p’+\frac{1-p’}{r}} $$

DL——WandB使用笔记

  • 参考链接:
    • wandb使用教程-知乎专栏

整体介绍

  • WandB(Weights & Biases)是一个用于机器学习/深度学习项目的实验跟踪、可视化和模型管理的工具
    • 实验跟踪 :超参数、训练 Loss、评估 Loss 和其他自定义指标
      • 注:可实时更新图表和指标
    • 可视化 :生成如 Loss 曲线和 AUC 曲线等,同时可以可视化权重分布或特征
      • 注:还可以使用 plt 等自定义曲线并上报在 WandB 上生成
    • 模型管理 :保存和共享模型的所有相关文件,包括权重文件、配置文件和环境设置,方便重新训练或共享
      • 注:支持模型版本控制,可对模型版本进行跟踪,比较不同模型的性能
    • 团队协作 :团队成员可以查看实验结果和进度
    • 资源监控 :可以监控GPU使用率、内存占用等系统资源
      • 注:原生的 Torch 等没有这种 Profile 功能
  • WandB 具有强大的兼容性 :
    • 适配 Jupyter、TensorFlow、PyTorch、Keras、Scikit-learn、LightGBM、XGBoost 等多种框架

基本使用流程介绍

  • 首先在wandb官网注册账号并获取API key,使用命令wandb login进行登录
  • 使用wandb.init()启动新项目,通过wandb.config跟踪超参数
  • 在训练过程中,使用wandb.log()记录指标,使用wandb.summary()添加最终结果
  • 最后使用wandb.finish()结束实验
  • 基本代码示例见附录

WandB API wandb.log()

整体定义

  • wandb.log() API用于记录和可视化实验指标、模型参数等数据,其基本定义为:
    1
    wandb.log(data, step=None, commit=True, sync=False)

data参数(必需)

  • 字典(dict)类型,指定要记录的数据,键为字符串(指标名称),值可以是多种类型:
    • 原生类型 :如 int, float等,用于记录损失、准确率等随训练迭代变化的值
    • 图像 :wandb.Image() 对象,上传图片后可以根据 step 拉杆选择指定 step 的图片查看
    • 表格 :wandb.Table() 对象
    • 直方图 :wandb.Histogram() 对象
    • 其他 WandB 对象 :如音频、视频、文本等均可
  • 代码示例:
    1
    2
    3
    4
    5
    # 记录标量值
    wandb.log({"loss": 0.235, "accuracy": 0.92})
    # 记录图像
    img = wandb.Image("path/to/image.jpg", caption="Sample Image")
    wandb.log({"examples": img})

step参数(可选)重点参数

  • 类型为整数(int),用于手动指定当前记录的全局步数(如迭代次数、轮数)。若不指定,WandB 会自动递增
  • 注意点1 :若 step 参数缺失,则每次调用都会自动生成新的 step(step 自动加 1)
    • 常见问题:一个 step 中,多次调用 wandb.log() 但不明确传入 step 参数,此时模型会错误的认为每次调用 wandb.log() 都是一个新的 step
  • 注意点2 :新增的 step 必须大于等于已有 step 的最大值
    • 若开始调用时使用了 step=400 的值,则以后再调用 step=300 时是不会记录数据的,如果是依次调用 step=1,step=10,step=8,则仅保留step=1 和 step=10 的数据(step=8会消失)
    • 新增的最小单元是:指标 x step;也就是说,无论是指标还是 step 变化,都算是新增
    • 任意指标新增 step 时,都不能小于当前所有指标的最大 step,但是如果这个指标的这个 step 已经存在,则是可以被修改的
  • 注意点3 :多次上传同一 step 会覆盖之前的值
    • 重复上传相同 step ,且仅会覆盖之前的值(仅针对相同指标)
  • 使用建议:在需要管理多个指标时,建议加上 step 参数

commit参数(可选)

  • 布尔值(bool),默认 True,用于决定是否立即将当前日志提交到 WandB 服务器
    • 若为 False,则缓存日志,直到下一次 commit=True 或手动调用 wandb.log()

sync参数(可选)

  • 布尔值(bool),默认 False,用于决定是否强制立即同步所有缓存的日志到服务器(即使 commit=False)

使用技巧笔记

  • 使用 wandb.init(mode="offline") 可在本地保存日志,后续手动同步
  • WandB 免费版有每月 10GB 存储限制,大量图片可能快速耗尽配额,建议上传前压缩图片(如 wandb.Image(img, mode="L") 转为灰度图)
  • WandB 可以部署到本地 Docker 上以保证数据安全

附录:WandB会存储哪些信息?

config.yaml

  • 存储训练任务的配置参数(超参数),例如:
    • 模型架构参数(如层数、神经元数量)
    • 训练参数(学习率、批次大小、迭代次数)
    • 数据路径、预处理设置
    • 优化器配置(如SGD、Adam的参数)
    • Python 版本信息
  • 用于记录实验的完整配置,便于复现和对比不同实验
  • 注:wandb.config 中配置的参数都会在 config.yaml 中出现

output.log

  • 包含训练过程中的标准输出日志
  • 注意:初始化了 WandB 后,标准输出会自动记录下来并上传

requirements.txt

  • 记录项目依赖的 Python 库及其版本,例如:

    1
    2
    3
    torch==2.0.0
    numpy==1.24.0
    pandas==2.0.3
  • 用于确保实验环境可复现,其他用户可通过该文件安装相同依赖

  • 与本地 pip list 结果完全一致

wandb-metadata.json

  • 包含 WandB 自动生成的元数据,例如:
    • 实验启动时间、持续时长
    • 运行环境信息(操作系统、Python版本)
    • 硬件信息(CPU/GPU型号、内存)
    • 代码仓库信息(如Git commit哈希)
  • 用于记录实验的环境上下文,便于追溯和管理
  • 示例:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    {
    "os": "macOS-14.4.1-x86_64-i386-64bit",
    "python": "CPython 3.10.0",
    "startedAt": "2024-05-27T06:36:31.346712Z",
    "program": "/Users/xxx/wandb_demo.py",
    "email": "xxx@gmail.com",
    "root": "/Users/xxx/xxx/",
    "host": "MBP-xxx.local",
    "executable": "/Users/xxx/envs/xxx/bin/python"
    }

wandb-summary.json

  • 存储训练过程中的关键指标 Summary
  • 用于快速查看实验结果,无需解析完整日志

附录:代码示例

  • 一个简单的使用 WandB 的代码示例:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    import random
    import wandb
    import time

    # Start a new wandb run to track this script.
    run = wandb.init(
    # entity="xxx", 不指定该项时默认走登录账号默认的组织
    project="wandb-demo-project", # Set the wandb project where this run will be logged.
    name="jiahong_sleep_log", # exp name,如果不指定则默认生成一个
    config={ # Track hyperparameters and run metadata. 会存储到 config.yaml中
    "learning_rate": 0.04,
    "dataset": "gsm8k",
    "epochs": 1,
    },
    )

    def model_step_simulation(step):
    acc = 1 - 2 ** -step - random.random() / step - offset
    loss = 2 ** -step + random.random() / step + offset
    return acc, loss

    # Simulate training.
    steps = 50
    offset = random.random() / 5
    for step in range(2, steps):
    acc, loss = model_step_simulation(step) # 真实场景这里会进行模型训练
    time.sleep(2)

    # Log metrics to wandb.
    wandb.log({"acc": acc, "loss": loss}) # 上报 scalar 图,这里会生成两个图
    print(f"step: {step}, loss: {loss}") # 打印到标准输出,可在 output.log 中查看

    # Finish the run and upload any remaining data.
    wandb.finish()

DL——模型压缩技术


模型压缩

  • 模型压缩(Model Compression)技术包含模型量化、蒸馏、剪枝等
  • 有时候模型量化和蒸馏会同时使用
  • 剪枝不常见

模型量化

  • 模型量化(Model Quantization),是一种将模型中的权重和激活从浮点数(高位宽)转换为低精度(低位宽)的表示的方法,如8位整数(INT8)
  • 数值上来看,量化是将连续值离散化的过程
  • 参考链接:
    • TinyML —— 模型量化(quantization)
    • B站北大学生汇报:模型量化加速
    • QLoRA: 训练更大的GPT

线性量化与非线性量化

  • 线性量化(linear quantization),也叫仿射量化(affine quantization)或者均匀量化
    • 我们很容易给出量化公式:
      其中,r(real value)值得是量化前的值,q(quantized value)是量化后的值,s(scale)是放缩比例,z(zero point)相当于是一个偏移量
  • 非线性量化(nonlinear quantization),也叫作非均匀量化

对称量化与非对称量化

  • 对称量化(symmetric quantization):映射前后0点相同
  • 非对称量化(asymmetric quantization):映射前后0点不相同

量化粒度

  • Per-Tensor Quantization(逐张量量化):
    • 这是最简单的量化方式,对整个张量(即模型中的一个参数矩阵或输入数据)使用相同的量化参数(比如最小值和最大值,或者量化因子)
    • 由于所有值共享相同的量化参数,因此这种方法的精度较低,但计算简单,存储和传输效率高
  • Per-Channel Quantization(逐通道量化):
    • 在这种量化方式中,每个通道(对于卷积神经网络中的滤波器来说,通道通常指的是滤波器输出的不同颜色或特征)使用不同的量化参数
    • 这种方法比逐张量量化更精细,因为不同的通道可能具有不同的值范围,因此可以独立地进行量化,以保持每个通道的精度
    • 因为有研究发现不同Channel的参数量级差距较大
  • Per-Layer Quantization(逐层量化):
    • 逐层量化意味着网络中的每一层都有自己的量化参数集
    • 这种方法允许每一层根据其激活值的范围独立地进行量化,这可能比逐张量量化提供更好的精度,但比逐通道量化的计算成本要低
  • Per-Axis Quantization(逐轴量化):
    • 这种量化方式通常用于多维张量,比如二维的权重矩阵。在这种情况下,”axis”可以指特定的维度,比如行或列
    • 逐轴量化意味着沿着张量的一个或多个维度,量化参数是不同的。例如,在二维张量中,可以对每一行或每一列使用不同的量化参数

量化方式(PTQ vs QAT)

  • PTQ(Post training quantization),后训练量化,训完的模型直接量化,然后进行推理
  • QAT(Quantization aware training),量化感知训练,训练完的模型加载到内存,进行微调后再用于推理
    • LLM常用的思路就是float16训练base模型并存储,SFT时使用INT8量化并使用LoRA微调模型,然后存储LoRA参数,推理时加载base模型(INT8量化加载)和LoRA参数一起推理

量化位宽

  • 统一位宽
  • 混合精度

量化模型训练梯度

  • 梯度回传时量化是离散的,梯度为0,实际上可以设置为1,因为量化一般是阶梯函数,类似于线性的

最新的量化模型

QLoRA
  • QLoRA是一种高效的微调方法,它允许在保持完整的16位微调任务性能的同时,将内存使用量降低到足以在单个48GB GPU上微调650亿参数模型。QLoRA通过冻结的4位量化预训练语言模型向低秩适配器(Low Rank Adapters,简称LoRA)反向传播梯度。这种方法的主要贡献包括:
    • 4-bit NormalFloat (NF4):一种新的数据类型,理论上对正态分布的权重是最优的
    • Double Quantization:通过量化量化常数来减少平均内存占用
    • Paged Optimizers:使用NVIDIA统一内存特性,自动在CPU和GPU之间进行页面转换,以避免梯度检查点操作时内存不足
  • QLoRA主要用于微调训练阶段,使得在单个GPU上进行大型模型的微调成为可能,这对于资源有限的研究者和开发者来说是一个重大突破
GPTQ
  • GPTQ(Generative Pre-trained Transformer Quantization)是一种针对生成预训练Transformer模型的量化技术。GPTQ旨在解决大型GPT模型的高计算和存储成本问题。这些模型由于其庞大的规模,即使在高性能GPU上进行推理也需要大量的计算资源。GPTQ通过以下方式来提高效率:
    • 一次性权重量化:基于近似二阶信息的方法,可以在不需要重新训练的情况下压缩模型
    • 高压缩率:能够将模型量化到每个权重3或4位,同时几乎不降低准确度
    • 高效执行:允许在单个GPU上执行大型参数模型的生成推理,显著减少了所需的硬件资源
  • GPTQ通过用于部署推理阶段,用于减少模型的大小和内存占用,使得这些大型模型更易于部署和使用

模型蒸馏

  • 模型蒸馏通常也叫作知识蒸馏(Knowledge Distillation),模型蒸馏泛指整个蒸馏技术框架,两者通常可以视作同一概念,但在一些特定的场景上会有微小差别
    • 模型蒸馏更倾向于表达模型压缩的思想,强调从大模型(教师模型)迁移知识到小模型(学生模型)的过程
    • 知识蒸馏更专注于将教师模型的知识(如输出分布、中间特征)传递给学生模型,不强调模型压缩,目标是提升学生模型的泛化能力
  • 模型蒸馏(Model Distillation),主要包含Logits蒸馏和特征蒸馏两大类
  • 参考链接:知识蒸馏算法汇总

    知识蒸馏有两大类:一类是logits蒸馏,另一类是特征蒸馏。logits蒸馏指的是在softmax时使用较高的温度系数,提升负标签的信息,然后使用Student和Teacher在高温softmax下logits的KL散度作为loss。中间特征蒸馏就是强迫Student去学习Teacher某些中间层的特征,直接匹配中间的特征或学习特征之间的转换关系。例如,在特征No.1和No.2中间,知识可以表示为如何模做两者中间的转化,可以用一个矩阵让学习者产生这个矩阵,学习者和转化之间的学习关系。 这篇文章汇总了常用的知识蒸馏的论文和代码,方便后续的学习和研究

Logits蒸馏

  • 关注输出层
  • 也叫作基于反馈的知识蒸馏
  • 学生模型被训练以模仿教师模型的输出概率分布。通过最小化两个模型输出概率分布之间的KL散度(或其他相似性度量),学生模型学习教师模型的“软目标”,即对每个类别的概率预测,而不是单一的预测标签
  • 损失函数 :一般实现时,除了损失函数一般还会考虑真实的预测标签,以多分类模型为例,输出是一个概率分布(例如,经过 softmax 后的 \( K \) 维向量),教师模型和学生模型的输出概率分布可以表示为:
    • 教师模型的输出:\( P_T = [p_T^1, p_T^2, \dots, p_T^K] \)
    • 学生模型的输出:\( P_S = [p_S^1, p_S^2, \dots, p_S^K] \)
    • 损失函数包括:
      • KL散度损失 :
        $$
        L_{KD} = T^2 \cdot D_{KL}(P_T || P_S) = T^2 \cdot \sum_{i=1}^K p_T^i \log \frac{p_T^i}{p_S^i}
        $$
        • 其中 \(T\) 为维度系数
      • 交叉熵损失 :
        $$
        L_{CE} = - \sum_{i=1}^K y_i \log p_S^i
        $$
        • 其中,\( y_i \) 是真实标签的 one-hot 编码
      • 总损失 :
        $$
        L = \alpha \cdot L_{KD} + (1 - \alpha) \cdot L_{CE}
        $$

特征蒸馏

  • 关注中间层
  • 也叫作基于特征的知识蒸馏
  • 学生模型被训练以模仿教师模型在中间层的激活或特征图。这通常通过最小化两个模型对应层的特征表示之间的距离(如L2距离或cosine相似度)来实现
  • 损失函数 :特征蒸馏的总损失函数通常结合特征蒸馏损失和任务损失(如分类损失):
    $$
    L = \alpha \cdot L_{Feature} + (1 - \alpha) \cdot L_{Task}
    $$
    • 其中:
      • \( L_{Feature} \) 是特征蒸馏损失(如 MSE、余弦相似度等)
      • \( L_{Task} \) 是任务损失(如交叉熵损失)
      • \( \alpha \) 是权重系数,用于平衡两部分损失

LLM的蒸馏

  • 在A Survey on Model Compression for Large Language Models中,将知识蒸馏分为黑盒知识蒸馏和白盒知识蒸馏两类
  • 黑盒知识蒸馏 :通常表示对ChatGPT,GPT4等黑盒LLM模型教师模型进行蒸馏,黑盒蒸馏使用教师模型的输出token作为监督来优化学生模型,蒸馏手段包含了基于CoT(Chain-of-Thought)的知识蒸馏、基于语境学习(In-Context Learning)的蒸馏和基于指令跟随(Insruction Following)的知识蒸馏
  • 白盒知识蒸馏 :通常表示对白盒LLM教师模型内部的结构和知识进行蒸馏
  • Deepseek-R1技术报告中的蒸馏是直接采用Deepseek-R1训练过程中收集到的80W数据对开源的模型(如qwen,llama等)做SFT

模型剪枝

  • Model Pruning
  • 通过删减网络结构然后调整分布实现模型压缩,剪枝方法不常用

Git——HuggingFace的使用


LFS 环境安装

  • 配置 HuggingFace 环境需要安装 git lfs
  • LFS全称 Large File Storge,即大文件存储,可以帮助我们管理比较大的文件
  • Ubuntu安装
    1
    2
    3
    curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
    sudo apt-get install git-lfs
    git lfs install

拉取 HuggingFace 项目(包含 git 文件)

  • 执行拉取操作

    1
    git clone https://huggingface.co/xxx/xxx
    • 该命令可在 HuggingFace 网站每个项目的首页 ... 选项的 clone repository 中查找到
    • git clone 命令可以将整个项目下载下来,但是下载大的文件时可能会特别慢,最佳实践是:
      • 使用 git clone xxx 下载项目文件,待除大文件外的其他文件下载结束时结束命令
        • 一些未完成的项目会出现在 .git/lfs/incomplete 文件夹下,结束命令后可以删除该文件夹,该文件夹可能会存储较大的未完成文件,浪费存储
      • 使用网页或其他方式下载较大的模型权重文件到指定目录下

使用 huggingface-cli 命令下载数据和模型(基础)

  • 安装

    1
    pip install huggingface-hub
  • 模型下载

    1
    huggingface-cli download Qwen/Qwen2.5-0.5B-Instruct  --local-dir ./Qwen2.5-0.5B-Instruct
  • 数据下载

    1
    huggingface-cli download openai/gsm8k --repo-type=dataset --local-dir ./gsm8k --local-dir-use-symlinks False
    • 重点:增加了 --repo-type=dataset 参数,否则默认是搜索模型
  • --local-dir-use-symlinks 的特别说明:

    • 当 --local-dir-use-symlinks 设置为 True(默认值)时,工具会优先创建符号链接指向缓存目录中的文件,而不是直接复制文件到 --local-dir 指定的目录。这样可以节省磁盘空间,但依赖于系统对符号链接的支持
    • 当 --local-dir-use-symlinks 设置为 False 时,工具会直接将文件复制(而非创建符号链接)到 --local-dir 指定的目录。这会占用更多磁盘空间,但保证了文件在目标目录中是真实存在的实体文件,不依赖符号链接机制,兼容性更好(尤其在 Windows 系统或某些不支持符号链接的环境中)
    • 实际上,ubuntu 下,亲测这个参数也可以不加,加不加没发现不同

使用 hf 命令下载数据和模型(大模型推荐,并行化)

  • 安装

    1
    pip install -U "huggingface_hub[cli]"
  • 用法与 huggingface-cli 几乎完全相同,但速度更快

  • 模型下载:

    1
    hf download Qwen/Qwen2.5-0.5B-Instruct  --local-dir ./Qwen2.5-0.5B-Instruct
  • 数据下载:

    1
    hf download openai/gsm8k --local-dir ./gsm8k --repo-type=dataset --local-dir-use-symlinks False

其他需要注意的点

  • 如果直接使用 transformers 包下载 Bert 等预训练模型时,默认安装在 ~/.cache/huggingface/hub 文件夹下

附录:使用 modelscope 下载模型(国内推荐)

  • 安装
    ‵‵‵bash
    pip install modelscope

    1
    2
    3
    * 模型下载命令
    ```bash
    modelscope download --model Qwen/Qwen2.5-0.5B-Instruct --local_dir ./Qwen2.5-0.5B-Instruct
    • 注意:这里不能使用 --local-dir,必须是 --local_dir
1…282930…61
Joe Zhou

Joe Zhou

Stay Hungry. Stay Foolish.

608 posts
49 tags
GitHub E-Mail
© 2026 Joe Zhou
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4