歷史
回歸設計實際上產生於上世紀五十年代,它是綜合回歸分析與試驗設計的現代發展而建立起來的試驗最佳化領域的一個新分支,也是數理統計學科的一個新發展。它將方案設計、數據處理與回歸方程的精度統一起來進行最佳化,已成為現代通用的一種試驗最佳化技術。我們知備試驗設計很難用於系統連續最佳化,因為它不能給出連續模型。由於某些因素水平變化的非定量性和非連續性,即使利用試驗數據線性結構模型或偽變數回歸分析建立起預測方程,也只能近似選優。相反,回歸設計則提供了便於系統連續最佳化和進一步精確選優的條件。由此,回歸設計不但使工程技術、自然科學和社會科學乃至思維科學中具有相關關係的多因素問題,都有可能實現定量分析,而且有可能用最小的代價達到尋優的目的,不論那些問題是白色系統、灰色系統還是黑色系統。可以預料過去那些只能進行定性研究和處理的科研和生產問題,可以期望用回歸設計技術構造需要的數學模型,將其提高到定量分析的水平上來,加以更好地研究。
如果僅以最優回歸方程為最佳化目標,多數回歸設計方法都是離散最佳化,但在最優回歸設計與混料回歸設計套用測度設計尋求最優方案時。則表現為序貫最佳化。如果最最佳化目標是最優組合條件,則回歸設計一般表現為離散最佳化與表序貫最佳化的綜合。回歸設計主要是從正交性、旋轉性和優良性出發,利用正交表、H陣、單純形、中心組合法和正交多項式組以及計算機技術編制試驗方案,直接求取各種線性和非線性回歸方程。實際上,回歸設計足現代建模的一種最最佳化技術。
概述
概念
回歸設計目的是尋找試驗指標與各因子間的定量規律,考察的因子都是定量的。
它是在多元線性回歸的基礎上用主動收集數據的方法獲得具有較好性質的回歸方程的一種試驗設計方法。
它將方案設計、數據處理與回歸方程的精度統一起來進行最佳化,已成為現代通用的一種試驗最佳化技術。
分類
1. 根據建立的回歸方程的次數不同,回歸設計有一次回歸設計、二次回歸設計、三次回歸設計等;
2. 根據設計的性質又有正交設計、旋轉設計等。
常用的回歸設計設計法有:單元線性正交設計、多元線性正交設計、二次組合設計、正交多項式設計、D-最優設計、混料設計。
回歸設計特點
設計表格化、公式規範化、分析程式化,是 回歸設計技術的顯著特點。設計表格化,是指試驗方案的設計,回歸係數的計算與檢驗都配列於同一人表,即計算格式表。公式規範化是指對於不同的回歸設計方法,回歸係數的計算、各因素的線性項、非線性項及其互動項的偏差平方和的計算以及統計檢驗,大多有同樣形式的公式。一般回歸設計的最佳化過程是根據試驗要求與專業知識,選擇合適的間歸設計方法,先編碼,設計方案,配列計算格式表,再計算分析,最後進行統計檢驗,已經完全程式化。回歸設計的上述特點,對於計算機編程,對於在科研和工農業生產中的實際套用都非常方便。
優勢
回歸分析對數據的處理由被動變主動。
古典的回歸分析方法只是被動地處理已有的試驗數據,對試驗的安排不提任何要來,對如何提高回歸方程的精度研究很少。後果就是盲目增加試驗次數,而這些試驗結果還不能提供充分的信息,以致在許多多因子試驗問題中達不到試驗目的;對模型的合適性有時無法檢驗,因為在被動處理數據時在同一試驗點上不一定存在重複試驗數據。
為了適應尋求最佳工藝、最佳配方、建立生產過程的數學模型等的需要,人們就要求以較少的試驗次數建立精度較高的回歸方程。
為此,要求擺脫古典回歸分析的被動局面,主動把試驗的安排、數據的處理和回歸方程的精度統一起來考慮,即根據試驗目的和數據分析的要求來選擇試驗點,不僅使得在每一個試驗點上獲得的數據含有最大的信息,從而減少試驗次數,而且使數據的統計分析具有一些較好的性質。
這就是二十世紀五十年代發展起來的“回歸設計”所研究的問題。
回歸設計的分類:根據建立的回歸方程的次數不同,回歸設計有一次回歸設計、二次回歸設計、三次回歸設計等;根據設計的性質又有正交設計、旋轉設計等。
關鍵
回歸設計的關鍵就是因素編碼,各種回歸設計方法都必須對因素進行編碼。
因素編碼:就是將自然因素通過編碼公式變成編碼因素的過程。
自然因素:是未經編碼的因素,通常記為z1, z2, ….. zp。自然因素有些有量綱,有些無量綱,但都有具體的物理意義,由自然因素構成的空間稱為自然空間,是實際試驗方案存在的空間。
編碼因素:是經過編碼的因素,通常記為x1, x2, ….. xp。任何編碼因素都是無量綱的。由編碼因素構成的空間稱為編碼空間。回歸設計時,方案的編制、回歸係數的計算及回歸方程的統計檢驗,即整個最佳化過程都是在編碼空間進行的。不同的回歸設計,有不同的編碼公式。
套用
回歸設計所能解決的問題:
1.可以使工程技術、自然科學和社會科學乃至思維科學中具有相關關係的多因素問題實現定量分析;
2.將過去那些只能定性研究和處理的科研和生產問題用回歸設計方法構造需要的數學模型,將其提高到定量分析的水平上來,進行預報、控制和調優。
(1)對任何一個給定的觀測點(試驗因素)x,推斷y(試驗指標)大致落的範圍;
(2)若要求觀測值y在一定的範圍y<y<y內取值,應將變數控制在什麼範圍。
前者就是所謂的預報問題,後者稱為控制問題。