[日常编辑]
Python数据分析时可能用到各种各样的图,本文将简单介绍数据分析中常用的几种基本图
直方图(Hist-plot)
柱形图(Dist-plot)
seaborn.distplot
- 集合了matplotlib的hist()与核函数估计kdeplot的功能
核密度估计图(KDE-plot)
seaborn.kdeplot
箱式图(Box-plot)
- 箱式图,是指—种描述数据分布的统计图
- 是表述最小值、第一四分位数、中位数、第三四分位数与最大值的一种图形方法
- 可以粗略地看出数据是否具有对称性,分布的分散程度等信息
异常值
又称离群值(Outlier), 指不在区间[Q1-1.5IQR, Q3+1.5IQR]中的值
- Q1为25%中位数,也称为下四分位数
- Q3为75%中位数,也称为上四分位数
- IQR为Q3-Q1,四分数间距
绘图方法
去除离群值之后的部分计入图中,分别标记五个特征值
- 特征值 最小值,Q1,中位数,Q3,最大值
- 将五个数值描绘在一个图上,五个特征值在一个直线上
- 最小值和Q1连接起来,Q1、中位数、Q3分别作平行等长线段
- 连接两个四分位数构成箱子
- 连接两个极值点与箱子,形成箱式图
- 最后点上离群值
实例
- 箱式图示例:
小提琴图(Violin-plot)
- 用于显示数据分布及其概率密度
- 竖向显示类似于箱式图,横向表征密度分布,越宽的地方密度分布越高