異常值
異常值又稱離群值,指大於1.5倍四分位數間距的數值。處於1.5~3倍四分位數間距之間的異常值在箱式圖中常用空心圓表示。
極端值
指大於三倍四分位數間距的數值。在箱式圖中常用實心圓表示。
箱式圖是一個重要的探索性數據分析工具來決定是否一個因子有重要影響在變數或位置的反應中。可觀察數據呈常態分配、左偏分布、右偏分布還是其他類型的分布,如U型分布。
極端值屬於異常值的一種,又稱離群值(outlier),如果不作特別要求,異常值和極端值均用一個點單獨表示
繪製方法
首先找出一組數據的五個特徵值,包括除異常值外的最小值(minimum)和最大值(maximum)、中位數(median)、兩個四分位數(上四分位數Q1和下四分位Q3數);
中位數:將所有數值從小到大排列,如果是奇數個數值則取最中間一個值作為中位數,之後最中間的值在計算Q1和Q3時不再使用;偶數個數值則取最中間兩個數的平均數作為中位數,這兩個數在計算Q1和Q3時繼續使用
Q1:中位數將所有數據分成兩部分,最小值到中位數的部分按取中位數的方法取中位數作為Q1
Q3:同Q1取法,取中位數到最大值的中位數
計算IQR(四分位數間距)即IQR=Q3-Q1
所有不在(Q1-1.5IQR,Q3+1.5IQR)的區間內的數為離群值,剩下的值最大的為最大值,最小的為最小值
特徵值(從小到大):最小值、Q1、中位數、Q3、最大值
將五個數值描繪在一個圖上,五個特徵值在一個直線上,最小值和Q1連線起來,Q1、中位數、Q3分別作平行等長線段,
然後,連線兩個四分位數構成箱子;
最後連線兩個極值點與箱子,形成箱式圖,然後點上離群值即可。
如有需要也可以在箱線圖旁加數軸做標記