概念
mutiple linear regression
很多時候,我們研究的問題是受多個因素影響的,需要建立多元回歸方程,進行多元回歸分析。在回歸分析中,如果有兩個或兩個以上的自變數,就稱為多元回歸。事實上,一種現象常常是與多個因素相聯繫的,由多個自變數的最優組合共同來預測或估計因變數,比只用一個自變數進行預測或估計更有效,更符合實際。因此多元線性回歸比一元線性回歸的實用意義更大。
比如,欲研究血壓受年齡、性別、體重、性格、職業(體力勞動或腦力勞動)、飲食、吸菸、血脂水平等因素的影響。
多元線性回歸分析的一般形式
Y=β0+β1X1+β2X2+……+βpXp+eβ1、β2、βp為偏回歸係數(Partialregressioncoefficient)
意義:如β1表示在X2、X3……Xp固定條件下,X1每增減一個單位對Y的效應(Y增減β個單位)。 但由於各個自變數的單位可能不一樣,比如說一個消費水平的關係式中,工資水平、受教育程度、職業、地區、家庭負擔等等因素都會影響到消費水平,而這些影響因素(自變數)的單位顯然是不同的,因此自變數前係數的大小並不能說明該因素的重要程度,更簡單地來說,同樣工資收入,如果用元為單位就比用百元為單位所得的回歸係數要小,但是工資水平對消費的影響程度並沒有變,所以得想辦法將各個自變數化到統一的單位上來。前面學到的標準分就有這個功能,具體到這裡來說,就是將所有變數包括因變數都先轉化為標準分,再進行線性回歸,此時得到的回歸係數就能反映對應自變數的重要程度。這時的回歸方程稱為標準回歸方程,回歸係數稱為標準回歸係數,表示如下:
Zy=β1Zx1+β2Zx2+…+βkZxk
多元回歸分析步驟
(1)用各變數的數據建立回歸方程
(2)對總的方程進行假設檢驗
(3)當總的方程有顯著性意義時,應對每個自變數的偏回歸係數再進行假設檢驗,若某個自變數的偏回歸係數無顯著性,則應把該變數剔除,重新建立不包含該變數的多元回歸方程。
對新建立的多元回歸方程及偏回歸係數按上述程式進行檢驗,直到餘下的偏回歸係數都具有統計意義為止。最後得到最優方程。
回歸方程的評價
1. 確定係數(R2): R2=SS回歸/SS總意義:在y的總變異中,由x變數組建立的線性回歸方程所能解釋的比例。0~1,越大越優。
特點:R2是隨自變數的增加而增大。
因此,在相近的情況下,以包含的自變數少者為優。
2. R——復相關係數
(multiplecorrelationcoefficient)。
表示P個自變數共同對應變數線性相關的密切程
度。0≤R≤1。即Y與Y'的相關係數。
3.校正確定係數(adjustedR-square,R2a)
越大越優。R2a不會隨無意義的自變數增加而增大。是衡量方程優劣的常用指標。