簡介
隨機效應模型 random effects models
雖然定義很簡單,對線性 混合模型的研究與套用也已經比較成熟了,但是如果從不同的側面來看,可以把很多的統計思想方法綜合聯繫起來。概括地來說,這個模型是頻率派和 貝葉斯模型的結合,是經典的參數統計到高維數據分析的先驅,是 擬合具有一定相關結構的觀測的典型工具。
用途
隨機效應最直觀的用處就是把固定效應推廣到隨機效應。注意,這時隨機效應是一個群體概念,代表了一個分布的信息 or 特徵,而對固定效應而言,我們所做的推斷僅限於那幾個固定的(未知的)參數。例如,如果要研究一些水稻的品種是否與產量有影響,如果用於分析的品種是從一個很大的品種集合里隨機選取的,那么這時用隨機效應模型分析就可以推斷所有品種構成的整體的一些信息。這裡,就體現了經典的頻率派的思想-任何樣本都來源於一個無限的群體(population)。
同時,引入隨機效應就可以使個體觀測之間就有一定的相關性,所以就可以用來 擬合非獨立觀測的數據。經典的就有重複觀測的數據,多 時間點的記錄等等,很多時候就叫做 縱向數據(longitudinal data),已經成為很大的一個統計分支。
上述兩點基本上屬於頻率派,分析的工具也很經典,像 極大似然估計, 似然比檢驗,大樣本的漸近性等。但是,應該注意到把固定的參數看做是 隨機變數,可是 貝葉斯學派的觀念。當然,mixed models 不能算是完全的 貝葉斯模型,因為貝葉斯學派要把所有的未知的參數都看作是隨機的。所以有人把它看做是半貝葉斯的 or 經驗貝葉斯的。在這個模型上,我們可以看到兩個學派很好的共存與交流,在現代的 統計方法裡兩種學派互相結合的例子也越來越多。
眾所周知,隨機效應有壓縮(shrinkage)的功能, 而且可以使模型的 自由度(df) 變小。這個簡單的結果,對現在的高維數據分析的發展起到了至關重要的作用。事實上,隨機效應模型就是一個帶懲罰(penalty)的一個線性模型,有引入正態隨機效應就等價於增加的一個二次懲罰。有趣的是,著名的 嶺回歸(ridge regression) 就是一個二次懲罰,它的提出解決了當設計矩陣不滿秩時最小二乘估計(LSE)無法計算以及提高了預測能力。於是,引入隨機效應或者二次懲罰就可以處理當參數個數p 大於觀測個數n的情形,這是在分析高維數據時必須面對的問題。當然,二次懲罰還有一個特性,如:計算簡便,能選擇相關的predictors,對前面的幾個主成分壓縮程度較小等。