簡介
分類是根據對象的本質屬性或顯著特徵將對象區分為若干種類,使每個種類相對於其他種類都具有確定的地位。分類可以使雜亂無章的事物現象或材料條理化、系統化。多重分類程式是指對需要進行分類的對象或樣本進行多次分類的程式。多重分類程式是對分類對象精確劃分,例如在檔案系統中,多重分類程式對檔案對象進行精確劃分,有利於對檔案的查詢和管理;在數據挖掘或機器學習中,對對象進行多重分類,能從一定程度上減小錯分機率。多重分類程式可以藉助決策樹實現。
屬性和特徵
屬性
客觀上存在且可區分的事物稱為實體。實體可以是人,也可以是物;可以指實際的對象,也可以指某些概念;可以指事物與事物間的聯繫。如學生是一個實體。實體所具有的某一方面的特性。一個實體可以由若干個屬性來刻畫。如公司員工實體有員工編號、姓名、年齡、性別等屬性。再如學生實體有學號、姓名和性別等屬性 。
特徵
特徵是一個客體或一組客體特性的抽象結果。特徵是用來描述概念的。任一客體或一組客體都具有眾多特性,人們根據客體所共有的特性抽象出某一概念,該概念便成為了特徵。
程式
計算任務的處理對象和處理規則的描述。任何以計算機為處理工具的任務都是計算任務。處理對象是數據,如數字、文字、聲音和圖像等。處理規則一般指處理動作和步驟。在低級語言中,程式是一組指令和有關的數據或信息。在高級語言中,程式一般是一組說明和語句,即程式規範說明和程式體兩部分。程式規範說明是該程式“做什麼”的概括描述,程式體是其實現步驟,即“如何做”的具體描述。構成程式的基本成分包括子程式、協同程式、遞歸程式和模組等,它們均稱為程式單位。程式都是用程式設計語言來書寫的。程式是軟體的主體,是軟體研究的主要對象。衡量程式質量的準則是:正確可靠、簡明易讀、易維護、易適應和時空開銷合理。系統程式 :支持計算機系統工作且為所有計算機用戶公用的程式。作業系統程式、各種語言的編譯程式、編輯程式、調試程式以及作為程式設計環境的各種工具性程式,都是系統程式。通常,系統程式是同計算機本體一道提供給用戶的。應用程式 解決某特定領域的套用問題的程式。
子程式:以良好的算法和數據結構編製成的一組具有獨立功能的語句序列或指令序列,能夠在程式中反覆調用,執行後返回調用處。在子程式內也可以調用另外的子程式。子程式又可分為函式型子程式和非函式型子程式。
程式包:具有相對獨立性的一組邏輯上相關的實體。程式包也是構成程式的一種單位。通常,程式包中的實體包括數據類型、數據對象和子程式,這些實體可被引用該程式包的外部程式使用,但隱藏了程式包內部的實現細節。
決策樹
決策論中 (如風險管理),決策樹(Decision tree)由一個決策圖和可能的結果(包括資源成本和風險)組成, 用來創建到達目標的規劃。決策樹建立並用來輔助決策,是一種特殊的樹結構。決策樹是一個利用像樹一樣的圖形或決策模型的決策支持工具,包括隨機事件結果,資源代價和實用性。它是一個算法顯示的方法。決策樹經常在運籌學中使用,特別是在決策分析中,它幫助確定一個能最可能達到目標的策略。如果在實際中,決策不得不在沒有完備知識的情況下被線上採用,一個決策樹應該平行機率模型作為最佳的選擇模型或線上選擇模型算法。決策樹的另一個使用是作為計算條件機率的描述性手段。
機器學習中,決策樹是一個預測模型;他代表的是對象屬性與對象值之間的一種映射關係。樹中每個節點表示某個對象,而每個分叉路徑則代表某個可能的屬性值,而每個葉節點則對應從根節點到該葉節點所經歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有複數輸出,可以建立獨立的決策樹以處理不同輸出。 數據挖掘中決策樹是一種經常要用到的技術,可以用於分析數據,同樣也可以用來作預測。從數據產生決策樹的機器學習技術叫做決策樹學習,通俗說就是決策樹。一個決策樹包含三種類型的節點:決策節點:通常用矩形框來表示;機會節點:通常用圓圈來表示;終結點:通常用三角形來表示。決策樹學習也是數據挖掘中一個普通的方法。在這裡,每個決策樹都表述了一種樹型結構,它由它的分支來對該類型的對象依靠屬性進行分類。每個決策樹可以依靠對源資料庫的分割進行數據測試。這個過程可以遞歸式的對樹進行修剪。 當不能再進行分割或一個單獨的類可以被套用於某一分支時,遞歸過程就完成了。另外,隨機森林分類器將許多決策樹結合起來以提升分類的正確率。