簡介
基於特徵選擇方法是使用特徵選擇有關方法從識別出源領域與目標領域重要或高度相關的特徵,移除許多冗餘或無關的特徵,然後將高度相關特徵套用到目標問題(冗餘或無關特徵是兩個不同的概念。如果一個特徵本身有用,但如果這個特徵與另一個有用特徵強相關,且那個特徵也在數據出現,那么這個特徵可能就變得多餘)。因為與樣本類別高度相關的那些特徵應該在訓練得到的模型中被賦予更高的權重。基於特徵選擇方法是一種兩階段的特徵選擇框架。第一階段首先用特徵選擇算法選出所有領域(包括源領域和目標領域)共有的特徵來訓練一個通用的分類器; 然後從目標領域無標籤樣本中選擇特有特徵來對通用分類器進行精確化從而得到適合於目標領域數據的分類器。於是,類別信息以及知識通過這些共有的特徵從源領域傳到目標領域 。
特徵選擇方法
特徵選擇算法可以被視為搜尋技術和評價指標的結合。前者提供候選的新特徵子集,後者為不同的特徵子集打分。 最簡單的算法是測試每個特徵子集,找到究竟哪個子集的錯誤率最低。這種算法需要窮舉搜尋空間,難以算完所有的特徵集,只能涵蓋很少一部分特徵子集。 選擇何種評價指標很大程度上影響了算法。而且,通過選擇不同的評價指標,可以把特徵選擇算法分為三類:包裝類、過濾類和嵌入類方法:
包裝類方法使用預測模型給特徵子集打分。每個新子集都被用來訓練一個模型,然後用驗證數據集來測試。通過計算驗證數據集上的錯誤次數(即模型的錯誤率)給特徵子集評分。由於包裝類方法為每個特徵子集訓練一個新模型,所以計算量很大。不過,這類方法往往能為特定類型的模型找到性能最好的特徵集。
過濾類方法採用代理指標,而不根據特徵子集的錯誤率計分。所選的指標算得快,但仍然能估算出特徵集好不好用。常用指標包括互信息、逐點互信息、皮爾遜積矩相關係數、每種分類/特徵的組合的幀間/幀內類距離或顯著性測試評分。過濾類方法計算量一般比包裝類小,但這類方法找到的特徵子集不能為特定類型的預測模型調校。由於缺少調校,過濾類方法所選取的特徵集會比包裝類選取的特徵集更為通用,往往會導致比包裝類的預測性能更為低下。不過,由於特徵集不包含對預測模型的假設,更有利於暴露特徵之間的關係。許多過濾類方法提供特徵排名,而非顯式提供特徵子集。要從特徵列表的哪個點切掉特徵,得靠交叉驗證來決定。過濾類方法也常常用於包裝方法的預處理步驟,以便在問題太複雜時依然可以用包裝方法。
嵌入類方法包括了所有構建模型過程中用到的特徵選擇技術。這類方法的典範是構建線性模型的LASSO方法。該方法給回歸係數加入了L1懲罰,導致其中的許多參數趨於零。任何回歸係數不為零的特徵都會被LASSO算法“選中”。LASSO的改良算法有Bolasso和FeaLect。Bolasso改進了樣本的初始過程。FeaLect根據回歸係數組合分析給所有特徵打分。 另外一個流行的做法是遞歸特徵消除(Recursive Feature Elimination)算法,通常用於支持向量機,通過反覆構建同一個模型移除低權重的特徵。這些方法的計算複雜度往往在過濾類和包裝類之間。
傳統的統計學中,特徵選擇的最普遍的形式是逐步回歸,這是一個包裝類技術。它屬於貪心算法,每一輪添加該輪最優的特徵或者刪除最差的特徵。主要的調控因素是決定何時停止算法。在機器學習領域,這個時間點通常通過交叉驗證找出。在統計學中,某些條件已經最佳化。因而會導致嵌套引發問題。此外,還有更健壯的方法,如分支和約束和分段線性網路。
分類器
分類是數據挖掘的一種非常重要的方法。分類的概念是在已有數據的基礎上學會一個分類函式或構造出一個分類模型(即我們通常所說的分類器(Classifier))。該函式或模型能夠把資料庫中的數據紀錄映射到給定類別中的某一個,從而可以套用於數據預測。總之,分類器是數據挖掘中對樣本進行分類的方法的統稱,包含決策樹、邏輯回歸、樸素貝葉斯、神經網路等算法。分類器的構造和實施大體會經過以下幾個步驟:
•選定樣本(包含正樣本和負樣本),將所有樣本分成訓練樣本和測試樣本兩部分。
•在訓練樣本上執行分類器算法,生成分類模型。
•在測試樣本上執行分類模型,生成預測結果。
•根據預測結果,計算必要的評估指標,評估分類模型的性能。
知識遷移
知識遷移,也稱學習遷移是一種學習對另一種學習的影響,是在學習這個連續過程中, 任何學習都是在學習者已經具有的知識經驗和認知結構、已獲得的動作技能、習得的態度等基礎上進行的。學習遷移的發生,取決於學習任務和遷移任務的同一性,又稱為'共同要素'。學習遷移與 問題解決之間有密切的關聯,因為學習遷移通常發生於先前知識套用於解決新情境下的問題