理論模型
給定一個隨機樣本,一個線性回歸模型假設回歸子Yi和回歸量之間的關係可能是不完美的。我們加入一個誤差項(也是一個隨機變數)來捕獲除了之外任何對Yi的影響。所以一個多變數線性回歸模型表示為以下的形式:
其他的模型可能被認定成非線性模型。一個線性回歸模型不需要是自變數的線性函式。線性在這裡表示Yi的條件均值在參數β里是線性的。例如:模型在β1和β2里是線性的,但在里是非線性的,它是Xi的非線性函式。
數據和估計
區分隨機變數和這些變數的觀測值是很重要的。通常來說,觀測值或數據(以小寫字母表記)包括了n個值 .我們有p + 1個參數需要決定,為了估計這些參數,使用矩陣表記是很有用的。其中Y是一個包括了觀測值的列向量,包括了未觀測的隨機成份以及回歸量的觀測值矩陣X:X通常包括一個常數項。如果X列之間存線上性相關,那么參數向量β就不能以最小二乘法估計除非β被限制,比如要求它的一些元素之和為0。
古典假設
樣本是在總體之中隨機抽取出來的。因變數在實直線上是連續的,殘差項是獨立同分布的,也就是說,殘差是i.i.d.且服從高斯分布。這些假設意味著殘差項不依賴自變數的值,所以和自變數(預測變數)之間是相互獨立的。在這些假設下,建立一個顯示線性回歸作為條件預期模型的簡單線性回歸。
最小二乘法估計
回歸分析的最初目的是估計模型的參數以便達到對數據的最佳擬合。在決定一個最佳擬合的不同標準之中,最小二乘法是非常優越的。