盒圖

盒圖

盒圖(boxplot):擺弄數據離散度的一種圖形。它對於顯示數據的離散的分布情況效果不錯。在軟體工程中,Nassi和Shneiderman 提出了一種符合結構化程式設計原則的圖形描述工具,叫做盒圖,也被稱為N-S圖。

定義

盒圖(boxplot):擺弄數據離散度的一種圖形。它對於顯示數據的離散的分布情況效果不錯。

在軟體工程中,Nassi和Shneiderman 提出了一種符合結構化程式設計原則的圖形描述工具?叫做盒圖?也叫做N-S圖。

簡介

盒圖 盒圖

盒圖是在1977年由美國的統計學家約翰·圖基(John Tukey)發明的。它由五個數值點組成:最小值(min),下四分位數(Q1),中位數(median),上四分位數(Q3),最大值(max)。也可以往盒圖裡面加入平均值(mean)。如圖。下四分位數、中位數、上四分位數組成一個“帶有隔間的盒子”。上四分位數到最大值之間建立一條延伸線,這個延伸線成為“鬍鬚(whisker)”。

盒圖 盒圖

由於現實數據中總是存在各式各樣地“髒數據”,也稱為“離群點”,於是為了不因這些少數的離群數據導致整體特徵的偏移,將這些離群點單獨匯出,而盒圖中的鬍鬚的兩級修改成最小觀測值與最大觀測值。這裡有個經驗,就是最大(最小)觀測值設定為與四分位數值間距離為1.5個IQR(中間四分位數極差)。即

1、IQR = Q3-Q1,即上四分位數與下四分位數之間的差,也就是盒子的長度。

2、最小觀測值為min = Q1 - 1.5*IQR,如果存在離群點小於最小觀測值,則鬍鬚下限為最小觀測值,離群點單獨以點匯出。如果沒有比最小觀測值小的數,則鬍鬚下限為最小值。

3、最大觀測值為max = Q3 + 1.5*IQR,如果存在離群點大於最大觀測值,則鬍鬚上限為最大觀測值,離群點單獨以點匯出。如果沒有比最大觀測值大的數,則鬍鬚上限為最大值。

特點

通過盒圖,在分析數據的時候,盒圖能夠有效地幫助我們識別數據的特徵:

1、直觀地識別數據集中的異常值(查看離群點)。

2、判斷數據集的數據離散程度和偏向(觀察盒子的長度,上下隔間的形狀,以及鬍鬚的長度)。

相關詞條

相關搜尋

熱門詞條

聯絡我們