簡介
機器學習中,決策樹是一個預測模型;他代表的是對象屬性與對象值之間的一種映射關係。樹中每個節點表示某個對象,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有複數輸出,可以建立獨立的決策樹以處理不同輸出。
從數據產生決策樹的機器學習技術叫做決策樹學習,通俗說就是決策樹。
決策樹學習也是數據挖掘中一個普通的方法。在這裡,每個決策樹都表述了一種樹型結構,他由他的分支來對該類型的對象依靠屬性進行分類。每個決策樹可以依靠對源資料庫的分割進行數據測試。這個過程可以遞歸式的對樹進行修剪。當不能再進行分割或一個單獨的類可以被套用於某一分支時,遞歸過程就完成了。另外,隨機森林分類器將許多決策樹結合起來以提升分類的正確率。
決策樹同時也可以依靠計算條件機率來構造。
決策樹如果依靠數學的計算方法可以取得更加理想的效果。資料庫已如下所示:(x,y)=(x1,x2,x3…,xk,y)
相關的變數Y表示我們嘗試去理解,分類或者更一般化的結果。其他的變數x1,x2,x3等則是幫助我們達到目的的變數。
決策樹對於常規統計方法的優缺點 :
優點:
1) 可以生成可以理解的規則;
2) 計算量相對來說不是很大;
3) 可以處理連續和種類欄位;
4) 決策樹可以清晰的顯示哪些欄位比較重要。
缺點:
1) 對連續性的欄位比較難預測;
2) 對有時間順序的數據,需要很多預處理的工作;
3) 當類別太多時,錯誤可能就會增加的比較快;
4) 一般的算法分類的時候,只是根據一個欄位來分類。
利用決策樹評價生產方案:
決策樹是確定生產能力方案的一條簡捷的途徑。決策樹不僅可以幫助人們理解問題,還可以幫助人們解決問題。決策樹是一種通過圖示羅列解題的有關步驟以及各步驟發生的條件與結果的一種方法。近年來出現的許多專門軟體包可以用來建立和分析決策樹,利用這些專門軟體包,解決問題就變得更為簡便了。
決策樹由決策結點、機會結點與結點間的分枝連線組成。通常,人們用方框表示決策結點,用圓圈表示機會結點,從決策結點引出的分枝連線表示決策者可作出的選擇,從機會結點引出的分枝連線表示機會結點所示事件發生的機率。
在利用決策樹解題時,應從決策樹末端起,從後向前,步步推進到決策樹的始端。在向前推進的過程中,應在每一階段計算事件發生的期望值。需特別注意:如果決策樹所處理問題的計畫期較長,計算時應考慮資金的時間價值。
計算完畢後,開始對決策樹進行剪枝,在每個決策結點刪去除了最高期望值以外的其他所有分枝,最後步步推進到第一個決策結點,這時就找到了問題的最佳方案。
下面以南方醫院供應公司為例,看一看如何利用決策樹作出合適的生產能力計畫。
南方醫院供應公司是一家製造醫護人員的工裝大褂的公司。該公司正在考慮擴大生產能力。它可以有以下幾個選擇:1、什麼也不做;2、建一個小廠;3、建一個中型廠;4、建一個大廠。新增加的設備將生產一種新型的大褂,目前該產品的潛力或市場還是未知數。如果建一個大廠且市場較好就可實現$100,000的利潤。如果市場不好則會導致$90,000的損失。但是,如果市場較好,建中型廠將會獲得$ 60,000,小型廠將會獲得$40,000,市場不好則建中型廠將會損失$10,000,小型廠將會損失$5,000。當然,還有一個選擇就是什麼也不乾。最近的市場研究表明市場好的機率是0.4,也就是說市場不好的機率是0.6。參下圖:
在這些數據的基礎上,能產生最大的預期貨幣價值(EMV)的選擇就可找到。
•EMV(建大廠)=(0.4)*($100,000)+(0.6)*(-$90,000)=-$14,000
•EMV(中型廠)=(0.4) *($ 600,000))+(0.6)* (-$10,000)=+$18,000
•EMV(建小廠)=(0.4)* ($40,000)+(0.6)*(-$5,000)=+$13,000
•EMV(不建廠)=$0
根據EMV標準,南方公司應該建一個中型廠。