ML——各种数据分析图介绍.md

[日常编辑]
Python数据分析时可能用到各种各样的图,本文将简单介绍数据分析中常用的几种基本图


直方图(Hist-plot)


柱形图(Dist-plot)

seaborn.distplot

  • 集合了matplotlib的hist()与核函数估计kdeplot的功能

核密度估计图(KDE-plot)

seaborn.kdeplot


箱式图(Box-plot)

  • 箱式图,是指—种描述数据分布的统计图
  • 是表述最小值、第一四分位数、中位数、第三四分位数与最大值的一种图形方法
  • 可以粗略地看出数据是否具有对称性,分布的分散程度等信息

异常值

又称离群值(Outlier), 指不在区间[Q1-1.5IQR, Q3+1.5IQR]中的值

  • Q1为25%中位数,也称为下四分位数
  • Q3为75%中位数,也称为上四分位数
  • IQR为Q3-Q1,四分数间距

绘图方法

去除离群值之后的部分计入图中,分别标记五个特征值

  • 特征值 最小值,Q1,中位数,Q3,最大值
  • 将五个数值描绘在一个图上,五个特征值在一个直线上
  • 最小值和Q1连接起来,Q1、中位数、Q3分别作平行等长线段
  • 连接两个四分位数构成箱子
  • 连接两个极值点与箱子,形成箱式图
  • 最后点上离群值

实例

  • 箱式图示例:

小提琴图(Violin-plot)

  • 用于显示数据分布及其概率密度
  • 竖向显示类似于箱式图,横向表征密度分布,越宽的地方密度分布越高