隨機擾動項我習慣稱之為隨機誤差項,包含的是模型主要變數以外的信息。我仍用居民支出舉例,如:
Y=aX1+bX2+c+隨機誤差項..........(1)
Y代表居民支出;X1代表居民收入;X2代表家庭財富;c是常數,即居民基本消費。這時,隨機誤差項代表的是:GDP、消費者價格指數、工業品價格指數、本幣匯率、大宗商品價格指數、房價均值、子女教育費均值等等等等。我們知道,收入和財富是決定居民支出較為直接的變數,所以我們將其引入模型中,而巨觀經濟情況和價格水平都是間接影響著居民支出的。如果我們需要更詳細全面的模型,那么我們需要引入更多的變數;但引入更多變數的成本也較大,比如多重共線、自相關問題等等。所以模型利用隨機誤差項將該部分龐大而對因變數影響不大的變數們都統一在一起表示,並且由於這些變數們對因變數的影響有正有負亦可相互抵消,只是影響模型的設定全面性而已。雖然如此,任意將模型的變數放入隨機誤差項也是不對的,比如:上述模型可以改為:
Y=aX1+c+隨機誤差項..........(2)
我們可以看到,家庭財富被挪入隨機誤差項,這是可以的,但是模型存在設定偏誤,即模型忽略了家庭富足,而收入不高,靠有錢的老爹過著花天酒地生活的人群,而這種人群我們不能證明其是大還是小,就很有可能對模型產生較大影響。好吧,直接公布答案,通過很多學者的研究,在模型(1)中我們得到的那條曲線更真實,所以我們剛才說的那種靠爹吃飯的人還真不是少數。所以模型(2)是有問題的。當然這不證明模型(1)就完全沒有問題,模型(1)存在較為嚴重的多重共線問題,即收入和家庭財富是相關性非常高的。不管他,扯遠了,我們是為了解釋隨機誤差項的含義,怎么合理利用需要大量的閱讀……
如果你讓我從數學式上對隨機誤差項進行解釋,我只能說其期望值是0,方差好像是1,忘記了。剛才說的模型(2)至少就不符合期望值是0的假設,所以模型(2)是有問題的。當然這都是理論的假設前提,在這些前提下,模型是有效的,我們也稱之為BLUE,如果前提被破壞,我們就要對模型進行調整和修正以使之回歸BLUE的結果。所謂BLUE就是模型符合:無偏性、有效性、一致性。無偏性就是估計值的期望值等於實際值;有效性就是估計值是方差最小的;一致性就是估計值依機率收斂到實際值