1.什么是箱形图
箱形图(也称盒图,箱线图等),因为形状长得像一个箱子而得名。
它是用于显示一组数据分散情况的统计图,可以通过这种图直观的探索数据特征。
2.箱线图优点
箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形图的数据形状。箱线图识别异常值的结果比较客观,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据的清洗。
3.箱线图局限性
不能精确地衡量数据分布的偏态和尾重程度;对于批量比较大的数据,反映的信息更加模糊以及用中位数代表总体评价水平有一定的局限性。
4.箱形图怎么看
箱形图的每一条横线都有意义,共由五个数值点构成,分别是:
上限:最大观察值(上边缘)
Q3:75%分位数
Q2:中位数,代表了样本数据的平均水平
Q1:25%分位数
下限 :最小观察值(下边缘)
IQR:是箱子,包含了50%的数据。箱子的宽度在一定程度上反映了数据的波动程度。
特别说明:箱形图里面的极大值(上边缘值)并非最大值,极小值(下边缘值)也不是最小值。
如果数据有存在离群点即异常值(超出最大或者最小观察值),此时将离群点以用圈表示,偏激异常值用 * 表示。
5.什么数据都适合画箱线图
箱子被压得很扁,甚至只剩下一条线,同时还存在着很多异常值时不适合画箱线图。
出现这种情况的原因:
样本数据中,存在特别大或者特别小的异常值,会导致箱子整体被压缩,反而凸显出来这些异常。
样本数据特别少,可能出现各种诡异的情况。
解决办法:如果数据取值为正数,尝试做对数变换(改善不对称分布、非正态分布和异方差现象等)。
6.总结
箱线图是针对连续型变量的,解读时候重点关注平均水平、波动程度和异常值。
当箱子被压得很扁,或者有很多异常的时候,试着做对数变换。
当只有一个连续型变量时,并不适合画箱线图,直方图是更常见的选择。
箱线图最有效的使用途径是作比较,配合一个或者多个定性数据,画分组箱线图。