分箱法

分箱法是指通過考察“鄰居”(周圍的值)來平滑存儲數據的值,用“箱的深度”表示不同的箱裡有相同個數的數據,用“箱的寬度”來表示每個箱值的取值區間。

定義

由於分箱方法考慮相鄰的值,因此是一種局部平滑方法。分箱的主要目的是去噪,將連續數據離散化,增加粒度。

按照取值的不同可劃分為按箱平均值平滑、按箱中值平滑以及按箱邊界值平滑。

舉例

假設有8、24、15、41、6、10、18、67、25等9個數,先對數進行從小到大的排序,6、8、10、15、18、24、25、41、67,再分為3箱。

箱1: 6、8、10

箱2: 15、18、24

箱3: 25、41、67

分別用三種不同的分箱法求出平滑存儲數據的值:

按箱平均值求得平滑數據值:箱1: 8,8,8,平均值是8,這樣該箱中的每一個值被替換為8。

按箱中值求得平滑數據值:箱2: 18,18,18 ,可以使用按箱中值平滑,此時,箱中的每一個值被箱中的中值替換。

按箱邊界值求得平滑數據值: 箱3:25,25,67,箱中的最大和最小值被視為箱邊界。箱中的每一個值都被最近的邊界值替換。

通過不同分箱方法求解的平滑數據值,就是同一箱中3個數的存儲數據的值。

相關詞條

熱門詞條

聯絡我們