擬合簡介
如果待定函式是線性,就叫線性擬合或者線性回歸(主要在統計中),否則叫作非線性擬合或者非線性回歸。表達式也可以是分段函式,這種情況下叫作樣條擬合。
一組觀測結果的數字統計與相應數值組的吻合。形象的說,擬合就是把平面上一系列的點,用一條光滑的曲線連線起來。因為這條曲線有無數種可能,從而有各種擬合方法。擬合的曲線一般可以用函式表示,根據這個函式的不同有不同的擬合名字。
在MATLAB中可以用polyfit 來擬合多項式。
擬合以及插值還有逼近是數值分析的三大基礎工具,通俗意義上它們的區別在於:擬合是已知點列,從整體上靠近它們;插值是已知點列並且完全經過點列;逼近是已知曲線,或者點列,通過逼近使得構造的函式無限靠近它們。
擬合優度
R^2衡量的是回歸方程整體的擬合度,是表達因變數與所有自變數之間的總體關係。R^2等於回歸平方和在總平方和中所占的比率,即回歸方程所能解釋的因變數變異性的百分比。實際值與平均值的總誤差中,回歸誤差與剩餘誤差是此消彼長的關係。因而回歸誤差從正面測定線性模型的擬合優度,剩餘誤差則從反面來判定線性模型的擬合優度。
統計上定義剩餘誤差除以自由度n – 2所得之商的平方根為估計標準誤。為回歸模型擬合優度的判斷和評價指標,估計標準誤顯然不如判定係數R^2。 R^2是無量綱係數,有確定的取值範圍(0—1),便於對不同資料回歸模型擬合優度進行比較;而估計標準誤差是有計量單位的,又沒有確定的取值範圍,不便於對不同資料回歸模型擬合優度進行比較。
金融的套用和解釋:
擬合優度是一個統計術語,是衡量金融模型的預期值和現實所得的實際值的差距。
它是一種統計方法套用於金融等領域,基於所得觀測值的基礎上作出的預測。換句話說,它是衡量如何將實際觀測的數值進行模擬的相關預測。
曲線擬合
實際工作中,變數間未必都有線性關係,如服藥後血藥濃度與時間的關係;疾病療效與療程長短的關係;毒物劑量與致死率的關係等常呈曲線關係。曲線擬合(curve fitting)是指選擇適當的曲線類型來擬合觀測數據,並用擬合的曲線方程分析兩變數間的關係。
最小二乘法(又稱最小平方法)是一種數學最佳化技術。它通過最小化誤差的平方和尋找數據的最佳函式匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和為最小。最小二乘法還可用於曲線擬合。其他一些最佳化問題也可通過最小化能量或最大化熵用最小二乘法來表達。
給定一組測量數據 ,基於最小二乘原理,求得變數x和y之間的函式關係f(x,A),使它最佳地逼近或擬合已知數據。f(x,A)稱為擬合模型, 是一些待定參數。做法是選擇參數A使得擬合模型與實際觀測值在各點的殘差 的加權平方和最小。套用此法擬合的曲線稱為最小二乘擬合曲線。
用最小二乘法求擬合曲線首先要確定擬合模型f(x),一般來說,根據各門科的知識可以大致確定函式的所屬類,若不具備這些知識,則通常從問題的運動規律及給定數據的散點圖來確定擬合曲線的形式。
擬合工具
MATLAB曲線擬合工具箱
簡介
MATLAB做曲線擬合可以通過內建函式或者曲線擬合工具箱(Curve Fitting Toolbox)。這個工具箱集成了用MATLAB建立的圖形用戶界面(GUIs)和M檔案函式。利用這個工具箱可以進行參數擬合(當想找出回歸係數以及他們背後的物理意義的時候就可以採用參數擬合),或者通過採用平滑樣條或者其他各種插值方法進行非參數擬合(當回歸係數不具有物理意義並且不在意他們的時候,就採用非參數擬合方法)。利用這個界面,可以快速地在簡單易用的環境中實現許多基本的曲線擬合。
改善擬合結果
很多因素會對曲線擬合產生影響,導致擬合效果又好有壞,這裡僅從一些角度出發探討有可能改善擬合質量。
1)模型的選擇:這是最主要的一個因素,試著用各種不同的模型對數據進行擬合比較;
2)數據預處理:在擬合前對數據進行預處理也很有用,這包括對回響數據進行變換以及剔除Infs、NaNs,以及有明顯錯誤的點。
3)合理的擬合應該具有處理出現奇異而使得預測趨於無窮大的時候的能力。
4)知道越多的係數的估計信息,擬合越容易收斂。
5)將數據分解為幾個子集,對不同的子集採用不同的曲線擬合。
6)複雜的問題最好通過進化的方式解決,即一個間題的少量獨立變數先解決。低階問題的解通常通過近似映射作為高階問題解的起始點。