模型統計

統計模型診斷是20世紀70年代中期發展起來的統計學領域一個新的研究方向,其主要目的是評價統計模型的適當性以及識別數據中可能存在的異常值和強影響點。在模型適當性的評價方面,線性模型中目前主要採用殘差分析來判斷模型擬合的好壞。

統計模型診斷是20世紀70年代中期發展起來的統計學領域一個新的研究方向,其主要目的是評價統計模型的適當性以及識別數據中可能存在的異常值和強影響點。在模型適當性的評價方面,線性模型中目前主要採用殘差分析來判斷模型擬合的好壞。異常值的識別主要在一定的異常模型假設下進行統計檢驗。而影響點的識別主要是研究數據點f或數據集)對我們關注的某個內容的影響程度並識別數據中的特殊結構,這項工作也稱之為影響分析。統計模型診斷可以為統計模型的改進提供重要的參考信息。在某些領域中,異常值及影響點還可以為我們提供某些特殊信息:如在地質找礦中,異常值及影響點可能對應著礦產資源富集信息;而在經濟領域,異常的出現還可能是某種預警信息的表現。

簡介

統計模型診斷中涉及的基本概念和方法。

基本概念
異常值對我們現代人來說並不陌生,人們甚至不自覺地會採用一些手段來處理現實生活中出現的異常現象。最典型的就是在體育比賽中對裁判打分的平均算法——去掉一個最高分和最低分,再作平均。人們對異常值的認識可以追朔到l6世紀,Bernoulli提到:“在200多年前,人們丟掉異常值的處理方法已經是常見的現象。”處理和識別異常值的統計方法可追溯到l850年。雖然異常值的識別和處理方法在現代已經發展很快,但是對異常值的定義依然有不同的理解和爭論。

例如Edgeworth(1887)認為:不一致觀測值(discordantobservation)可以定義為那些與所在樣本中其他數據點遵從的頻率規則flawoffrequency)不一致的觀測值。

82年後,Grubbs(1969)又這樣表述:
一個異常的觀測值,即異常值,是嚴重偏離所在樣本其他數據點的觀測值。這些表述實質上認為異常值是有目的的、後驗的.這種有目的性的識別異常值的方法,一般只能在數據中的異常值可以預先通過視覺觀察時才能使用(在一元小樣本中較多)。事實上,對樣本量較大或較為複雜的數據集,比如回歸、多元數據、試驗設計等,預先觀察到異常值是很困難的.因此,就有在觀察到異常值之前制定一種客觀的準則,這種準則大多依賴於異常值模型(outliermodel)。由於近幾年來強調統計建模的重要性,許多研究者認為異常值是那些來自於非目標總體(某種統計模型)的觀察值.Hawkins(1980)給出了一種比較明確的定義:異常值是指污染的觀測值或不一致觀測值的總稱。不一致觀測值是指那些讓調查者感到吃驚或有較大偏差的數據點。而污染的觀測值是指來自非目標總體的觀測值。

相關詞條

相關搜尋

熱門詞條

聯絡我們