性質
樹中高層概念是底層概念的概括,樹根是該屬性的可能屬性值的最一般描述,樹葉是該屬性的可能屬性值,如果屬性是連續值屬性(或叫模糊屬性),則樹葉是一些連續值範圍。
套用
目前常用的各類數據挖掘算法,主要用於特徵規則、關聯規則、分類規則、序貫模式的發現,但將這些算法用於實際的大型資料庫進行知識發現,卻不能取得很好的效果。
概念層次樹作為數據分類的方法,可以將大量詳細的細節數據總結上升到較高的概念層,為數據挖掘的各個步驟提供背景知識,提高知識的準確性和可理解性。適合用戶需要較高層次的、能反映一定關係的規則來支持決策的實際套用,此外可用於對數據預處理得到清潔的元數據及知識表示。
生成
概念層次樹可由領域內的專家提供,但在實際評估中,因為數據規模很大,協調專家之間的意見非常困難,人工定義大型的概念層次樹亦不合理、不現實,且提供的概念層次樹可能是最一般的概念層次樹,常包含全部可能的屬性值以及它們對應的全部可能的父概念。這種概念樹對於特定的資料庫顯得偏大,並且影響到概念提升的速度,因而缺乏一定的靈活性和針對性。通常,無論是領域專家定義還是自動生成概念層次樹,概念層次樹的構造有自頂向下和自底向上兩種方式。
對於資料庫中常常存在各種數值型屬性的情況,一般採用自動生成數值型概念層次的概念化方法:由用戶指定期望的分段數,由機器自學習,將屬性值分成若干個區間。該方法可滿足大型資料庫中特殊挖掘任務的要求,它能針對特殊挖掘任務的要求構造專門的概念層次,反映特殊數據集合中的數據分布。
對數值型欄位數據的概念化,就是將欄位中的所有數據進行概念分段,將每一段用一個概念值表示,然後將原欄位中的所有數據用它所對應的概念段的概念值來代替,產生概念表。
一般的數值型概念層次生成算法都是通過將數值型屬性的值域區間離散化,形成多個子區間作為概念層次的葉節點,基本方法有等距離區間法和等頻率區間法。