原理
表征依變數Y的變異中有多少百分比,可由控制的自變數X來解釋.
相關係數(coefficient of correlation)的平方即為決定係數。它與相關係數的區別在於除掉|R|=0和1情況,
由於R2<R,可以防止對相關係數所表示的相關做誇張的解釋。
決定係數:在Y的總平方和中,由X引起的平方和所占的比例,記為R (R的平方)
決定係數的大小決定了相關的密切程度。
當R 越接近1時,表示相關的方程式參考價值越高;相反,越接近0時,表示參考價值越低。這是在一元回歸分析中的情況。但從本質上說決定係數和回歸係數沒有關係,就像標準差和標準誤差在本質上沒有關係一樣。
在多元回歸分析中,決定係數是通徑係數的平方。
表達式:R =SSR/SST=1-SSE/SST
其中:SST=SSR+SSE,SST (total sum of squares)為總平方和,SSR (regression sum of squares)為回歸平方和,SSE (error sum of squares) 為殘差平方和。
注意:以下不同名字是同一個意思,只是表述不同
回歸平方和:SSR(Sum of Squares for regression) = ESS (explained sum of squares)
殘差平方和:SSE(Sum of Squares for Error) = RSS (residual sum of squares) =SSR(sum of squared residuals)
總離差平方和:SST(Sum of Squares for total) = TSS(total sum of squares)
注意:兩個SSR的不同
SSE+SSR=SST
RSS+ESS=TSS
意義:擬合優度越大,自變數對因變數的解釋程度越高,自變數引起的變動占總變動的百分比高。觀察點在回歸直線附近越密集。
取值意思:
0 表示模型效果跟瞎猜差不多
1 表示模型擬合度較好(有可能會是過擬合,需要判定)
0~1 表示模型的好壞(針對同一批數據)
小於0則說明模型效果還不如瞎猜(說明數據直接就不存線上性關係)
作用
判定係數只是說明列入模型的所有解釋變數對因變數的聯合的影響程度,不說明模型中單個解釋變數的影響程度。
對時間序列數據,判定係數達到0.9以上是很平常的;但是,對截面數據而言,能夠有0.5就不錯了。
用例
判定係數達到多少為宜?
沒有一個統一的明確界限值;
若建模的目的是預測因變數值,一般需考慮有較高的判定係數。
若建模的目的是結構分析,就不能只追求高的判定係數,而是要得到總體回歸係數的可信任的估計量。判定係數高並不一定每個回歸係數都可信任。
區別
判定係數和相關係數的區別
判定係數 | 相關係數 |
就模型而言 | 就兩個變數而言 |
說明解釋變數對因變數的解釋程度 | 度量兩個變數線性依存程度。 |
度量不對稱的因果關係 | 度量不含因果關係的對稱相關關係 |
取值:[0,1] | 取值:[-1,1] |