證據加權分析法
證據加權分析法(weight evidence analysis method)是加拿大數學地質學家Agterberg提出的一種地質學統計方法,它採用貝葉斯統計分析模式,通過對一些與礦產形成相關的地質學信息的疊加複合分析,來進行礦產靶區的預測(Agterberg,1990;Agerberg and Cheng,2002;李榮等,2011)。該模型是數理統計、圖像分析和人工智慧的有機綜合,為基於GIS軟體平台進行成礦預測提供了有效的方法,目前在礦產資源評價方面套用十分廣泛(楊茂森等,2005;馬偉等,2015)。
近年來,ROC分析(Receiver Operating Characteristic Analysis)技術越來越多地套用到機器學習領域中,因其具有對類別分布和代價不敏感,直觀性和理解性強等特點,使其成為度量分類性能的有效工具(萬柏坤等,2006;鄒洪俠等,2009)。成礦潛力預測問題與二態數據的機器學習問題十分相似,通過計算ROC曲線下面積AUC(Area Under the Curve)值,來進行成礦預測模型的效果評價,並將證據加權分析法和ROC曲線分析方法相結合,根據ROC曲線的TP率和FP率計算圈定礦產靶區機率閾值從而進行礦產靶區的預測,克服了傳統人工確定機率閾值的主觀性。
證據加權分析法基本原理
證據加權分析法將每一種致礦因素(證據圖層)都用二態變數來表示,用1表示證據存在,0表示不存在,然後檢驗不同證據兩兩之間的條件獨立性,並且每一種證據都計算一對權係數,最後將證據圖層進行統計綜合,計算成礦後驗機率(陳永良等,2000)。在將證據圖進行統計綜合之前,需要檢驗m個證據是否滿足條件獨立性,將m個證據兩兩配對分組,檢驗每一組中兩個證據是否滿足條件獨立性。
ROC曲線分析原理
近年來,ROC分析技術越來越多的套用到機器學習領域中,因其具有對類別分布和代價不敏感,直觀性和理解性強等特點,使其成為度量分類性能的有效工具(塗福泉,2007;張曉龍等,2007)。把分類器將第一類目標正確分為第一類的個數與所有第一類樣品個數的比值(TP/P)定義為TP率,把分類器將第二類目標誤分為第一類目標的個數與所有第二類樣品個數的比值((TP/N))定義為FP率。以FP率為X軸,以TP率為Y軸形成的二維空間或坐標系,離散或二值輸出的分類器訓練後都會對應坐標系中的一個點,具體的說坐標系中的單點是給定不同分類器或同一分類器且設定不同閾值後得出的(駱名劍,2005;張曉龍等,2007)。將ROC空間中所有的點,按照從左到右的順序連成一條曲線,在連線的過程中要刪除曲線中所有凹陷處的點,從而保證連線得到的ROC曲線外殼擁有一個單調遞減的斜率,這樣基於統計計算的TP率和FP率就能從ROC曲線凸殼上中找到最優分類器(孫長亮,2006;宋花玲,2006)。(2)ROC曲線分類性能評價指標目前基於ROC曲線的評估指標有很多,其中套用比較廣泛的就是通過計算ROC曲線下面積AUC(Area Under the Curve),來進行分類性能的評估(塗福泉等,2007;張曉龍和江川,2007)。在比較多個分類器時,只需要比較它們對應曲線下所占的面積,用AUC值的大小來評價分類性能即可。
證據加權分析法套用於成礦靶區預測
成礦信息變數選擇
證據加權分析法成礦預測數據包括了成礦地質背景、地球化學、遙感地質信息共17個證據圖層和1個已知地質礦產信息圖層,參加證據加權分析法的計算,把劃分好的格線統計單元的屬性數據代入證據加權分析法,計算綜合信息變數的正、負權重值,及其之間的差值大小,通過權重差值的大小來度量對應的證據圖層與礦床產出的關聯性大小,當證據權反差達到一定強度時,可以認為找礦證據具有較強的成礦指示作用。對比分析各個證據圖層的關聯強度係數,設定0.35作為閾值,把關聯強度係數小於0.35的3個證據圖層剔除掉,將剩餘的14個證據圖層和1個已知礦點和礦化點圖層,作為證據權模型的建模數據,並14個證據圖層編號。
證據權模型建模及預測
證據加權分析法要求所有的證據之間必須是條件獨立的,因此在作圖層綜合前,需先檢驗14個證據圖層的相互獨立性,常用的條件獨立性檢驗方法是G2檢驗(Agterberg,1990)。計算優選出的14個信息變數兩兩配對的G2檢驗表:根據Agterberg(1990)的研究結果,表格的上三角區的值與單元大小無關,而下三角區的值隨著單元規模的減小而增大。上三角的χ2分布自由度為1,下三角的χ2分布自由度為2。在顯著性水平α=0.05時,χ2=3.841,α=0.01時,χ2=6.635,從表5.3中可以看出,14個證據圖層基本滿足條件檢驗。在建模之前,需要對每個證據圖層,正負權重係數以及其對應的方差、偏方差進行估算。基於模型公式,對劃分的每一個格線單元的成礦後驗機率進行了計算,並將統計結果繪製成礦後驗機率空間分布圖和後驗機率偏差空間分布圖。