例子
在欺詐檢測應用程式中,目標概念可以是具有值“是”或“否”的二進制屬性FRAUDULENT,其指示給定交易是否是欺詐性的。或者,在天氣預報套用中,可能存在若干目標概念,例如TEMPERATURE,PRESSURE和HUMIDITY。
線上商店中的客戶的行為可能隨時間而改變。例如,如果要預測每周的商品銷售,並且已經開發出令人滿意的預測模型。該模型可以使用諸如廣告花費的金額,正在運行的促銷以及可能影響銷售的其他指標等輸入。隨著時間的推移,模型可能變得越來越不準確 - 這就是概念漂移。在商品銷售套用中,概念漂移的一個原因可能是季節性,這意味著購物行為會季節性變化。例如,冬季假期的銷售額可能高於夏季。
可能的補救措施
為了防止由於概念漂移導致的預測精度的惡化,可以採用有源和無源解決方案。主動解決方案依賴於觸發機制,例如變化檢測測試(Basseville和Nikiforov 1993; Alippi和Roveri,2007),以明確地將概念漂移檢測為數據生成過程統計數據的變化。在靜止條件下,可以集成任何可用的新信息來改進模型。不同的是,當檢測到概念漂移時,當前模型不再是最新的,必須用新的模型替換以保持預測準確性(Gama等,2004; Alippi等,2011)。相反,在被動解決方案中,模型不斷更新,例如,通過在最近觀察到的樣本上重新訓練模型(Widmer和Kubat,1996),或強制執行一組分類器(Elwell和Polikar 2011)。
軟體
RapidMiner(以前的YALE(又一個學習環境)):用於知識發現,數據挖掘和機器學習的免費開源軟體,還具有數據流挖掘,學習時變概念和跟蹤漂移概念(如果與其結合使用) 數據流挖掘外掛程式(原名:概念漂移外掛程式) 。
EDDM(EDDM(早期漂移檢測方法)):Weka(機器學習)中漂移檢測方法的免費開源實現。
MOA(大規模線上分析):免費的開源軟體,專門用於挖掘具有概念漂移的數據流。 它包含一個前序評估方法,EDDM概念漂移方法,ARFF真實數據集的讀者,以及作為SEA概念的人工流生成器,STAGGER,旋轉超平面,隨機樹和基於隨機半徑的函式。 MOA支持與Weka(機器學習)的雙向互動。