箱式图,是指—种描述数据分布的统计图
- 是表述最小值、第一四分位数、中位数、第三四分位数与最大值的一种图形方法。
- 可以粗略地看出数据是否具有对称性,分布的分散程度等信息
异常值
又称离群值(Outlier), 指不在区间[Q1-1.5IQR, Q3+1.5IQR]中的值
- Q1为25%中位数,也称为下四分位数
- Q3为75%中位数,也称为上四分位数
- IQR为Q3-Q1,四分数间距
绘图方法
去除离群值之后的部分计入图中,分别标记五个特征值
- 特征值 最小值,Q1,中位数,Q3,最大值
- 将五个数值描绘在一个图上,五个特征值在一个直线上
- 最小值和Q1连接起来,Q1、中位数、Q3分别作平行等长线段
- 连接两个四分位数构成箱子
- 连接两个极值点与箱子,形成箱式图
- 最后点上离群值