簡介
機器學習如果按照訓練樣本標籤的有無可以分為以下兩種常用方法。有監督訓練和無監督訓練。
以機器學習中的分類(classification)來說,輸入的訓練數據有特徵(feature),有標籤(label)。在分類過程中,如果所有訓練數據都有標籤,則為有監督學習(supervised learning)。如果數據沒有標籤,顯然就是無監督學習(unsupervised learning)了,也即聚類(clustering)。
監督訓練,就是通過已有的訓練樣本(即已知數據以及其對應的輸出)去訓練得到一個最優模型(這個模型屬於某個函式的集合,最優則表示在某個評價準則下是最佳的),再利用這個模型將所有的輸入映射為相應的輸出,對輸出進行簡單的判斷從而實現分類的目的,也就具有了對未知數據進行分類的能力。典型的例子就是KNN、SVM。
無監督訓練(或者叫非監督訓練)則是另一種。它與監督訓練的不同之處,在於我們事先沒有任何訓練樣本,而需要直接對數據進行建模。無監督訓練里典型的例子就是聚類了。
特點
(1)貪婪:基於貪婪算法,獨立最佳化問題解的各方面,但是每次只最佳化一個方面,而不是同時同步全局最佳化。
(2)逐層:各個獨立方面可以看做網路的每一層,每次訓練的第i層,都會固定前面的所有層。
(3)無監督:每次訓練都是無監督表征學習算法。
(4)預訓練:訓練前的一步操作。
無監督訓練的實現模型
(1)自動編碼器,優點是技術簡單重建輸入,可堆疊多層,直覺型基於神經科學研究
缺點是貪婪訓練每一層,沒有全局最佳化,比不上監督學習表現,層一多會失效
(2)聚類學習優點聚類相似輸出可被多層堆疊,直覺型且基於神經科學研究。
缺點是貪婪訓練每一層沒有全局最佳化,在一些情況下比不上監督學習的表現,層數增加會失效,收益遞減。特別的,受限RBMs,DBMs,DBNs難以訓練,而配分函式的數值難題,還未普遍用來解決問題。
(3)生成模型,嘗試在同一個時間創建一個分類網路和一個生成圖像模型。