監督學習詞性解釋
【計】 supervised learning
supervised learning
supervised learning
基本定義:
利用一組已知類別的樣本調整分類器的參數,使其達到所要求性能的 過程,也稱為監督訓練或有教師學習。
監督學習是從標記的訓練數據來推斷一個功能的機器學習任務。
監督學習中需要注意的問題:
1、偏置方差權衡
第一個問題就是偏置和方差之間的權衡。假設我們有幾種不同的,但同樣好的演算數據集。一種學習算法是基於一個未知數的輸入,在經過這些數據集的計算時,系統會無誤的預測到並將正確的未知數輸出。一個學習算法在不同的演算集演算時如果預測到不同的輸出值會對特定的輸入有較高的方差。一個預測誤差學習分類器是與學習算法中的偏差和方差有關的。一般來說,偏差和方差之間有一個權衡。較低的學習算法偏差必須“靈活”,這樣就可以很好的匹配數據。但如果學習算法過於靈活,它將匹配每個不同的訓練數據集,因此有很高的方差。許多監督學習方法的一個關鍵方面是他們能夠調整這個偏差和方差之間的權衡(通過提供一個偏見/方差參數,用戶可以調整)。
2、功能的複雜性和數量的訓練數據
第二個問題是訓練數據可相對於“真正的”功能(分類或回歸函式)的複雜度的量。如果真正的功能是簡單的,則一個“不靈活的”學習算法具有高偏壓和低的方差將能夠從一個小數據量的學習。但是,如果真功能是非常複雜的(例如,因為它涉及在許多不同的輸入要素的複雜的相互作用,並且行為與在輸入空間的不同部分),則該函式將只從一個非常大的數量的訓練數據,並使用可學習“靈活”的學習算法具有低偏置和高方差。因此,良好的學習算法來自動調整的基礎上可用的數據量和該函式的明顯的複雜性要學習的偏壓/方差權衡。
3、輸入空間的維數
第三個問題是輸入空間的維數。如果輸入特徵向量具有非常高的維數,學習問題是很困難的,即使真函式僅依賴於一個小數目的那些特徵。這是因為許多“額外”的尺寸可混淆的學習算法,並使其具有高方差。因此,高的輸入維數通常需要調整分類器具有低方差和高偏置。在實踐中,如果工程師能夠從輸入數據手動刪除不相關的特徵,這是有可能改善該學習功能的準確性。此外,還有許多算法的特徵選擇,設法確定相關特徵,並丟棄不相關的。這是維數降低,其目的是將輸入數據映射到較低維空間中運行的監督學習算法之前的更一般的策略的一個實例。
4、噪聲中的輸出值
第四個問題是在所需要的輸出值(監控目標變數)的噪聲的程度。如果所希望的輸出值,通常是不正確的(因為人為錯誤或感測器的錯誤),則學習算法不應試圖找到一個函式完全匹配的訓練示例。試圖以適應數據過於謹慎導致過度擬合。當沒有測量誤差(隨機噪聲),如果你正在努力學習功能,是您學習模式太複雜,你甚至可以過度擬合。在這種情況下的目標函式,該函式不能被模擬“腐化”你的訓練數據的那部分-這一現象被稱為確定性的噪聲。當任一類型的噪聲存在時,最好是去一個更高的偏見,低方差估計。
實例分析:
正如人們通過已知病例學習診斷技術那樣,計算機要通過學習才能具有識別各種事物和現象的能力。用來進行學習的材料就是與被識別對象屬於同類的有限數量樣本。監督學習中在給予計算機學習樣本的同時,還告訴計算各個樣本所屬的類別。若所給的學習樣本不帶有類別信息,就是無監督學習。任何一種學習都有一定的目的,對於模式識別來說,就是要通過有限數量樣本的學習,使分類器在對無限多個模式進行分類時所產生的錯誤機率最小。
不同設計方法的分類器有不同的學習算法。對於貝葉斯分類器來說,就是用學習樣本估計特徵向量的類條件機率密度函式。在已知類條件機率密度函式形式的條件下,用給定的獨立和隨機獲取的樣本集,根據最大似然法或貝葉斯學習估計出類條件機率密度函式的參數。例如,假定模式的特徵向量服從常態分配,樣本的平均特徵向量和樣本協方差矩陣就是常態分配的均值向量和協方差矩陣的最大似然估計。在類條件機率密度函式的形式未知的情況下,有各種非參數方法,用學習樣本對類條件機率密度函式進行估計。在分類決策規則用判別函式表示的一般情況下,可以確定一個學習目標,例如使分類器對所給樣本進行分類的結果儘可能與“教師”所給的類別一致,然後用疊代最佳化算法求取判別函式中的參數值。
在無監督學習的情況下,用全部學習樣本可以估計混合機率密度函式,若認為每一模式類的機率密度函式只有一個極大值,則可以根據混合機率密度函式的形狀求出用來把各類分開的分界面。
監督學習方法是目前研究較為廣泛的一種機器學習方法,例如神經網路傳播算法、決策樹學習算法等已在許多領域中得到成功的套用,但是,監督學習需要給出不同環境狀態下的期望輸出(即導師信號),完成的是與環境沒有互動的記憶和知識重組的功能,因此限制了該方法在複雜的最佳化控制問題中的套用。