簡介
在數據分析過程中,經常需要對數據進行標準化(normalization),
有許多中數據標準化方法,常用的有最小-最大標準化、Z-score標準化和按小數定標標準化等。
Min-max 標準化
min-max標準化方法是對原始數據的線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值v通過min-max標準化映射成在區間[new_minA, new_maxA]中的值v’。
若取值區間是[0,1],則公式可簡化為:
min-max標準化方法保留了原始數據之間的關係。如果今後輸入的數據落在A的原數據區外,該方法將會面臨“越界”錯誤。
例題
例如 假定屬性income的最小與最大值分別為$12,000和$98,000。我們想映射income到區間[0,1]。根據min-max標準化,incom值$73,600將變換為(73,600-12,000)/(98,000-12,000)×(1-0)=0.716。
z-score 標準化
這種方法基於原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。將A的原始值v使用z-score標準化到v’。
其中 是屬性A原始值得均值, 是屬性A原始值的標準差。標準差 即為方差 的平方根。方差的計算公式如下:
z-score標準化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值範圍的離群數據的情況。
Decimal scaling小數定標標準化
這種方法通過移動數據的小數點位置來進行標準化。小數點移動多少位取決於屬性A的取值中的最大絕對值。將屬性A的原始值v使用decimal scaling標準化到v’的計算方法是:
其中,j是滿足條件 的最小整數。
例如 假定A的值由-986到917,A的最大絕對值為986,為使用小數定標標準化,我們用1000(即,j=3)除以每個值,這樣,-986被規範化為-0.986。