定義
高斯過程指的是一組隨機變數的集合,這個集合裡面的任意有限個隨機變數都服從聯合常態分配 。具體地,對機率空間 內指數集為 的隨機過程 ,當 的子集 對任意 都是高斯隨機向量時, 被稱為高斯過程,且其分布,即布雷爾測度(Borel measure) ,被稱為高斯測度(Gaussian measure) 。
該定義有如下引理:對高斯隨機向量 ,若有指數集 ,則隨機過程 是高斯過程;反之,若隨機過程 是高斯過程,則 是高斯隨機向量 。
對指數集 指定的高斯過程 ,其數學期望與協方差函式(covariance function)有如下定義 :
對高斯過程的定義中沒有包含指數集的先驗假設,這意為著指數集可以有任意的拓撲結構,高斯過程通常考慮其指數集擁有無窮個元素的情形,常見形式包括時間序列(timeseries)和空間位置。在指數集對應空間關係時,高斯過程也被稱為高斯隨機場(Gaussian random field) 。高斯過程在文獻中常記為 。
理論
平穩高斯過程(stationary Gaussian process)
作為隨機過程之一,高斯過程的重要成員是平穩高斯過程,其定義如下 :
設高斯過程 的指數集 是一個阿貝爾群(abelian group)且對任意 ,隨機向量 和 具有相同的對應關係,則 被稱為平穩高斯過程 。
上述定義的另一等價表述為:若高斯過程 的數學期望和協方差在指數集內平移不變(transformation invariant),則 為平穩高斯過程。該表述的公式形式為:
平穩高斯過程的均值和變化幅度穩定,為高斯過程的建模帶來了便利,因此在高斯過程回歸和分類問題中被廣泛使用 。
核函式(kernel function)
高斯過程的性質與其協方差函式有密切聯繫,在構造高斯過程時,一些特定形式的協方差函式被稱為核函式。核函式的選擇要求滿足Mercer定理(Mercer's theorem),即核函式在樣本空間內的任意格拉姆矩陣(Gram matrix)為半正定矩陣(semi-positive definite)。這裡對高斯過程常見的核函式類型進行總結。
1. 平穩高斯過程的核函式
構建平穩高斯過程時,常用的核函式有:
徑向基函式核(RBF kernel) | |
馬頓核(Matérn kernel) | |
指數函式核(exponential kernel) | |
二次有理函式核(rational quadratic kernel, RQ kernel) |
式中,馬頓核中的為修正貝塞爾函式(modified Bessel function),為表征核函式的特徵長度尺度(characteristic length-scale)的超參數。上述核函式間存在聯繫,當時,馬頓核和RQ核等價於以為特徵尺度的RBF核,指數函式核是馬頓核在的特殊形式。
核函式的兩個重要度量是單調性和平滑性(smoothness)。表中的核函式均是單調遞減函式,因此樣本間的相關性與樣本間距離成反比,此時特徵長度尺度越小,樣本間的相關性越高。隨機過程的平滑性由均方導數(mean squared derivative)描述,表中RBF核對應無限均方可導的平滑高斯過程;馬頓核與RQ核的均方可導性與其超參數有關,例如在取1.5和2.5時,馬頓核是1階和2階均方可導的;指數函式核對應的高斯過程是奧恩斯坦-烏倫貝克過程(Ornstein-Uhlenbeck Process, OU),OU過程是一個具有強馬爾可夫性且均方不可導的隨機過程(參見特例部分)。
2. 各項同性(isotropy)與各向異性(anisotropy)核函式
若高斯過程為高斯隨機場,對應的指數集表示空間時,其核函式的選擇有各向同性與各向異性之分。各向同性表示樣本的協方差與其向量的方向無關,即僅與距離有關,各向異性反之。
對先前表中的平穩核函式,若定義,則其為各向同性核函式,若定義則其為各向異性核函式,是表征各向異性的矩陣函式,其對角元素表示不同維度下所取的尺度。舉例說明,對RBF核,其一般形式可表示為:
式中的3個選擇分別對應各向同性、幾何各向異性(geometric anisotropy)和完全各向異性的RBF核。
3 . 非平穩核函式
周期核(periodic kernel)與多項式函式核(polynominal kernel)是常見的非平穩核函式。對前者,平穩核函式可以用於構建周期核:。式中表示該核函式具有的周期,例如由RBF核得到的周期核的形式為:。對後者,多項式函式核也被稱為內積核(dot product kernel),當多項式函式核為1階時,多項式函式核退化為線性核。多項式函式核是非平穩的,但其對以原點為中心的旋轉變換保持不變。高階內積核函式的取值在時呈非線性增長 。內積核函式通常被套用於高維的高斯過程分類問題 。
性質
由高斯過程的定義可知,高斯過程的任意有限指數集下的隨機變數都服從聯合常態分配,因此由常態分配的可加性,高斯過程(和其子集)的任意線性組合也是高斯過程。此外,由聯合常態分配性質可知,若高斯過程有互不相關的隨機變數 則 相互獨立。
高斯過程由其數學期望和核函式完全定義,核函式賦予高斯過程平滑性(smoothness)、各向同性(isotropy)、周期性和平穩性。平穩高斯過程的數學期望是一常數,因此由核函式完全定義。 。
高斯過程具有邊緣分布性質(marginalization property),若高斯過程有服從聯合常態分配的隨機向量 ,則其該向量中的隨機變數,且隨機變數間有條件分布:
高斯過程的邊緣分布性質意味著由大的隨機變數集得到的結果不會對小的隨機變數造成影響。對有限個隨機變數的高斯過程,只要協方差函式定義了協方差矩陣的所有元素,則該性質依然成立 。
特例
維納過程 (Wiener process)
維納過程也被稱為布朗運動(Brownian Motion),是一個 、數學期望為0且協方差函式 的高斯過程 。維納過程是非平穩的,且其差值 服從相互獨立的常態分配,具有強馬爾可夫性,因此維納過程是一個高斯-馬爾可夫過程(Gauss-Markov process) 。
非整數布朗運動(Fractional Brownian Motion)
非整數布朗運動是一類特殊的高斯過程。非整數布朗運動有 、數學期望為0和如下形式的協方差函式 :
在時間序列中,上式的 被稱為赫斯特指數(Hurst exponent),可以度量非整數布朗運動的記憶性 。當其大於0.5時,非整數布朗運動的差值有正相關;當其小於0.5時有負相關,當其等於0.5時,非整數布朗運動沒有記憶性,等價於一個維納過程 。
奧恩斯坦-烏倫貝克過程(Ornstein-Uhlenbeck Process, OU)
OU過程是一個平穩的高斯-馬爾可夫過程,其數學期望為0且以指數函式為核函式。OU過程與維納過程存在聯繫,是隨機微分方程: 的解 。
布朗橋(Brownian bridge)
布朗橋是一個平穩高斯過程,布朗橋有 ,數學期望為0,協方差函式為 。在連續時間域 上,布朗橋與維納過程有關 :
推廣
高斯過程回歸(Gaussian Process Regression, GPR)
GPR是將回歸模型所對應的函式空間(functional space)視為高斯過程:從而通過學習樣本估計回歸模型參數的監督學習過程。作為一般性介紹,GPR可分為3個部分:
1. 構建高斯過程先驗:高斯過程由其數學期望和協方差函式完全決定,常見的選擇是平穩高斯過程,即數學期望為一常數,協方差函式取平穩高斯過程可用的核函式,使用最多的核函式是RBF核 。
2. 求解超參數:在給定學習樣本後GPR由貝葉斯定理(Bayes' theorem)求解超參數後驗:式中為超參數的似然,對正態似然的情形,GPR通常使用極大似然估計(Maximum Likelihood Estimation, MLE)按非線性最佳化方法求解超參數;對非正態似然的情形,可使用解析近似(analytical approximation)和蒙特卡羅方法(Monte Carlo method) 。
3. 對測試樣本進行預測:對測試樣本,使用0均值高斯過程先驗的GPR可給出回歸結果的後驗。在正態似然的情形下,GPR的預測具有如下解析形式 :
式中的核矩陣表示如下:
作為具有全貝葉斯特性(full Bayesian)的非參數模型,GPR可提供預測結果的後驗,且在似然服從常態分配時,該後驗具有解析形式,因此其是一個具有泛用性和可解析性的機率模型。此外,在核函式和指數集滿足特定條件時,GPR是任意函式的通用近似(universal approximator)。
高斯過程分類(Gaussian Process Classification, GPC)
GPC與logistic回歸(logistic regression)的關係可類比權重空間下GPR與貝葉斯線性回歸的關係 。對高斯過程下的數據 和分類標籤 ,依據貝葉斯定理(Bayes’ theorem) 可以表示為 或 。兩種表示方法定義了兩類GPC模型,即生成模型(generative model)和判別模型(discriminative model),前者對 建模,後者對 建模 。
對判別模型,在二元分類(binary classification)中,給定權重矩陣和從實數域映射至 區間的回響函式(例如Sigmoid函式),可定義如下的線性分類器(linear classifier):
GPC定義潛函式(latent function) 並賦予其正態先驗 ,隨後使用獨立觀測的標籤數據 、 計算潛函式和其經過回響函式後的輸出 :
在由二元分類過渡至多元分類時,需要將回響函式替換為歸一化指數函式(softmax function) 。在高斯過程中構建生成模型的常見做法是對每個分類標籤建立 並提供數學期望和核函式的先驗。使用生成模型對 建模會得到與判別模型相同的結果 。生成模型和判別模型效果相當,判別模型不考慮數據和標籤的聯合分布直接輸出分類結果,因此有更少的變數需要學習,有利於提高學習效率和精度;生成模型由於估計了 ,因此更適用於應對複雜數據,例如缺失值、極端值、無標籤值的情形 。
GPC的似然是潛函式對學習樣本的因子乘積:,考慮Sigmoid函式的表達式,該形式不是常態分配,因此GPC的後驗沒有解析形式,要求使用非正態似然的求解方法,例如使用解析近似將非正態後驗近似表示為正態後驗。
其它
除GPR和GPC外,高斯過程建模可以有其它更複雜的形式,例如半參數高斯過程(Semi-parametric Gaussian Processes, SGP) 、深度高斯過程(Deep Gaussian Process, DGP) 、可加高斯過程(Additive Gaussian Process, AGP)等 。
套用
高斯過程主要套用於各領域的建模和預報,在時間序列分析中,高斯過程被用於時間序列的多步前向預報(multi-step-ahead prediction) 、在信號處理中,高斯過程建模是處理非線性信號的工具 、在人工智慧領域,GPR和GPC是被廣泛使用的機器學習算法 ,具有卷積結構的高斯過程(Convolutional Gaussian Processes, CGP)在圖像處理問題中表現出了良好效果 。此外一些高斯過程可以模擬特殊的科學現象,例如OU過程被用於神經活動的建模 、布朗橋被用於模擬生物的遷徙行為 。