基本介紹
虛擬變數可以代表質的因素,有些情況下,虛擬變數也可以代表數量因素。分段線性回歸就是類似情形中常見的一種。
在經濟關係中常有這樣的情況:當解釋變數的值達到某一水平之前,與被解釋變數之間存在某種線性關係;當解釋變數的值達到或超過以後,與被解釋變數的關係就會發生變化。此時,如果已知的轉折點。我們就可以用虛擬變數來估計每一段的斜率。這就是所謂的 分段線性回歸 。
模型分析
分段線性回歸模型由兩條直線組成,但在折點處曲線仍是連續的。考慮以下的基本模型:
假定因變數和解釋變數均呈現隨時間穩定增長的趨勢,在時間處反映兩者之間關係的曲線出現轉折,使得兩段曲線的截距和斜率都發生變化,但的變化具有連續性。我們設定以下形式的虛擬變數 :
然後將待估計的分段線性回歸模型寫成
由式(1) 可以看出,當處於不同時間段時,的期望值分別為
當時,有
當時,有
當時,有
即在處曲線為連續的,圖1反映出這一情況 。
舉例分析
在研究實際經濟問題時,有些經濟變數之間的因果關係會在解釋變數達到某個臨界值時發生突變,為了區分這種變化,可以利用虛擬變數進行分段線性回歸 。
例如,根據消費理論,消費水平主要取決於收入水平;假設高收入與低收入人群的消費傾向存在差異,則這種消費傾向的差異可通過在收入的係數中引入虛擬變數來考察,建立如下消費模型:
其中,為收入水平,為劃分高收入與低收入的臨界值,為消費水平,為虛擬變數,為隨機擾動項。
若模型(2)的隨機擾動項滿足經典線性回歸模型的基本假設,則可以得到:
低收入人群
高收入人群
式(3)和式(4)分別表示低收入人群和高收入人群的消費函式;不同收入人群的消費行為是否存在顯著差異,可以通過的統計顯著性檢驗進行判斷。
如圖2所示,模型(2)實際上是將兩段回歸合併進行,這兩段回歸不僅截距不同,而且斜率不同。分兩段線性回歸引入了一個虛擬變數;容易推廣,分段線性回歸應引入了個虛擬變數 。