簡介
針對小樣本試驗數據的機率分布特徵有時無法確定,傳統機率統計就無法提供相應的參數估計方法的問題。基於灰色關聯理論,首先定義了基於試驗數據之間的拓撲關係和距離關係的灰色距離測度。通過對灰色距離測度的灰色生成得到小樣本數據的參數估計值,並給出了滿足一定灰色置信度下的參數置信區間,繼而討論了機率參數估計與灰色參數估計之間的區別。最後利用計算機對小樣本試驗數據的參數估計進行了仿真舉例,示例結果表明所提方法簡單合理,能有效地解決小樣本數據參數估計的有關問題 。
樣本數據特徵的初步分析
樣本數據集合中出現頻次最高的那個樣本值,稱為樣本眾數。在一般情況下,“樣本眾數”被簡稱為“眾數”。 單一眾數是在許多情況下,一個樣本數據集合中出現頻次最高的樣本值只有一個。這時的眾數是最普通的眾數,稱為單一眾數。 而復眾數就是在一個樣本數據集合中。
利用SAS軟體描述樣本數據
例題:計算平均數和標準差
解:在進行分析之前,最好先建立一個外部數據檔案。如果不建立外部數據檔案,在作業流中輸入數據也可以。一般來說,在數據量比較大,有可能重複使用時,最好建立一個數據檔案。在這裡我們創建一個稱為2-1data.dat 的外部數據檔案,存儲在A盤中。用MEANS過程描述數據的最基本的程式如下 :
options linesize=76;
data abc;
infile ‘a:\2-1data.dat’;
input x;
run;
proc means;
run;
提交SAS運行後,所得結果如表1所示:
The SAS System | |
Analysis Variable : XN | 250 |
Mean | 63.2760000 |
Std Dev | 3.0139941 |
Minimum | 55.0000000 |
Maximum | 70.0000000 |
列印的結果中包括:數據個數、平均數、標準差、最小值和最大值。這是MEANS語句在預設時得到的基本結果。若需要對數據作更詳細的描述,則要指明所需的統計量。用MEANS過程所計算的統計量,在這裡也一併列出。MEANS過程所計算的統計量是用關鍵字表示,這些關鍵字及其含義如下:
N:輸入的觀測值個數;
NMISS:每個變數所含缺失值的個數;
MEAN:變數的平均數;
STD:變數的標準差;
MIN:變數的最小值;
MAX:變數的最大值;
RANGE:變數的極差;
SUM:變數所有值的和;
VAR:變數的方差;
USS:每一變數原始數據的平方和(未校正平方和);
CSS:每一變數的離均差平方和(校正平方和);
CV:變異係數STDERR:每一變數的標準誤差(平均數的標準差);
T:在H0:μ= 0時的t 值;
PRT:在H0:μ= 0 的假設下,統計量t 大於t 臨界值絕對值的機率;
SKEWNESS:偏斜度;
KURTOSIS:峭度;
CLM:置信區間的上限和下限;
LCLM:置信區間的下限;
UCLM:置信區間的上限;
另外,在PROC MEANS語句中還有12個選項,其中幾個主要選項如下:
DATA=(SAS 數據集):指出SAS 數據集的名稱,若省略,則使用最近產生的數據集;
MAXDEC=(數字):指出所輸出的結果中,小數部分的最大位數(0-8),預設時為8 位;
FW=(域寬):指出列印的結果中每個統計量的域寬,預設時為12;
VARDEF=(DF / N):VARDEF=DF為預設值,表示計算方差時,使用n-1 作分母;
VARDEF=N表示計算方差時,使用觀測值個數n 作分母;
ALPHA=(α值):指出在計算置信區間時,選用的顯著水平。