屬性
屬性: 一個數據欄位,表示數據對象的一個特徵。(屬性、維、特徵、變數可以互換實用)
標稱屬性
標稱意味著“與名稱相關”;標稱屬性的值是一些符號或失誤的名稱。每個只代表某種類別、編碼或者狀態,因而標稱屬性又被堪稱是分類的。例如,人的屬性->頭髮顏色(黑、白、棕、紅、黃...)和婚姻狀況(未婚、已婚、離異...)屬於標稱屬性。
標稱屬性值可以用數字表示,如1,2,3等;但是這些值並不具有有意義的序,並且不是定量的,因而這種屬性的均值、中位數是沒有意義的。眾數是有意義的。
二元屬性
二元屬性是一種標稱屬性,只有兩種類別(狀態):0和1,通常0表示該屬性不出現,1表示出現。又稱為布爾屬性(true 和 false)。
二元屬性又分對稱的和非對稱的: 對稱指兩種狀態具有同等價值且相同的權重,如性別(男、女);非對稱是指狀態的結果不是同樣重要的,如病毒化驗結果(陽性、陰性)。
序數屬性
序數屬性的可能的值之間具有有意義的序或秩評定,但是相繼值之間的差是未知的。序數屬性通常用於等級評定調查。
標稱、二元和序數屬性都是定性的,他們描述對象的特徵,而不給出實際大小或數量。
定性屬性的值通常是代表類別的詞。
數值屬性
數值屬性是定量的,他是可度量的量,用證書或實數值表示,數值屬性可以是區間標度的或比率標度的。
區間標度屬性:屬性用相等的單位尺度度量。區間熟悉的值有序,例如: 20度,15度(溫度屬性);
比率標度屬性:具有固定零點的數值屬性,即一個值是另一個的倍數(比率)。比率值也是有序的,可以計算值之間的差、也能計算均值、中位數、眾數。
離散屬性與連續屬性
機器學習領域開發的分類算法通常把屬性分類成離散或連續的。
離散屬性:具有有限或無限可數個值,可以用或不用整數表示,如頭髮顏色、婚姻狀況都是有限個值,是離散的。
離散值屬性
機器學習領域開發的分類算法通常把屬性分成離散的或連續的。每種類型都可以用不同的方法處理。離散屬性具有有限或無限可數個值,可以用或不用整數表示。屬性hair_color、smoker、medical_test和drink_size都有有限個值,因此是離散的。注意,離散屬性可以具有數值值。如對於二元屬性取0和1,對於年齡屬性取0到110。如果一個屬性可能的值集合是無限的,但是可以建立一個與自然數的一一對應,則這個屬性是無限可數的。例如,屬性customer_ID是無限可數的。顧客數量是無限增長的,但事實上實際的值集合是可數的(可以建立這些值與整數集合的一一對應)。郵政編碼是另一個例子。
如果屬性不是離散的,則它是連續的。在文獻中,術語“數值屬性”與“連續屬性”通常可以互換地使用。(這可能令人困惑,因為在經典意義下,連續值是實數,而數值值可以是整數或實數。)在實踐中,實數值用有限位數字表示。連續屬性一般用浮點變數表示。