箱式圖

箱式圖

箱式圖,是指—種描述數據分布的統計圖,是表述最小值、第一四分位數、中位數、第三四分位數與最大值的一種圖形方法。它也可以粗略地看出數據是否具有對稱性,分布的分散程度等信息,特別是可用於對幾個樣本的比較。在箱圖中,最上方和最下方的線段分別表示數據的最大值和最小值,其中箱圖的上方和下方的線段分別表示第三四分位數和第一四分位數,箱圖中間的粗線段表示數據的中位數。另外,箱圖中在最上方和最下方的星號和圓圈分別表示樣本數據中的極端值。一般有兩種類型的箱圖:單式箱圖用於分析只有一個變數的數據分布,複式箱圖用以分析具有兩個或以上變數的數據分布。

異常值

異常值又稱離群值,指大於1.5倍四分位數間距的數值。處於1.5~3倍四分位數間距之間的異常值在箱式圖中常用空心圓表示。

極端值

指大於三倍四分位數間距的數值。在箱式圖中常用實心圓表示。

箱式圖是一個重要的探索性數據分析工具來決定是否一個因子有重要影響在變數或位置的反應中。可觀察數據呈常態分配、左偏分布、右偏分布還是其他類型的分布,如U型分布。

極端值屬於異常值的一種,又稱離群值(outlier),如果不作特別要求,異常值和極端值均用一個點單獨表示

繪製方法

首先找出一組數據的五個特徵值,包括除異常值外的最小值(minimum)和最大值(maximum)、中位數(median)、兩個四分位數(上四分位數Q1和下四分位Q3數);

中位數:將所有數值從小到大排列,如果是奇數個數值則取最中間一個值作為中位數,之後最中間的值在計算Q1和Q3時不再使用;偶數個數值則取最中間兩個數的平均數作為中位數,這兩個數在計算Q1和Q3時繼續使用

Q1:中位數將所有數據分成兩部分,最小值到中位數的部分按取中位數的方法取中位數作為Q1

Q3:同Q1取法,取中位數到最大值的中位數

計算IQR(四分位數間距)即IQR=Q3-Q1

所有不在(Q1-1.5IQR,Q3+1.5IQR)的區間內的數為離群值,剩下的值最大的為最大值,最小的為最小值

特徵值(從小到大):最小值、Q1、中位數、Q3、最大值

將五個數值描繪在一個圖上,五個特徵值在一個直線上,最小值和Q1連線起來,Q1、中位數、Q3分別作平行等長線段,

然後,連線兩個四分位數構成箱子;

最後連線兩個極值點與箱子,形成箱式圖,然後點上離群值即可。

如有需要也可以在箱線圖旁加數軸做標記

相關詞條

相關搜尋

熱門詞條

聯絡我們