可疑數據的取捨
與正常數據不是來自同一分布總體、明顯歪曲實驗結果的測量數據,稱為離群數據。可能會歪曲實驗結果,但尚未經檢驗斷定其是離群數據的測量數據,稱為可疑數據。
在數據處理時,必須剔除離群數據以使測量結果更符合客觀實際。正確數據總有一定的分散性,如果人為地刪去一些誤差較大但並非離群的測量數據,由此得到精密度很高的測量結果並不符合客觀實際。因此對可疑數據的取捨必須遵循一定的原則。
測量中若發現明顯的系統誤差和過失,則由此產生的數據應隨時剔除。而可疑數據的取捨應採用統計方法判別,即離群數據的統計檢驗。檢驗的方法很多,現介紹最常用的兩種。
同一樣品同一組分的多個數據中,在相同條件下進行多次重複分析測試得到的數據,或在不完全相同條件下進行再現分析測試得到的數據,或在標準物質進行分析定值中得到的多個實驗室多個分析方法的數據,也有在分析方法精密度試驗中得到的多個實驗室的數據。在這些數據稱為可疑數據或可疑值,對可疑數據的取捨的方法有技術性的和統計性的。
取捨方法
(一)技術性的取捨
從採用的分析方法、分析人員在操作過程中發現異常現象、分析儀器運轉是否正常、計算差錯、記錄差錯,環境影響等查找原因,如果確實證明該可疑數據確係上述原因引起的,則認為可疑值為離群數值,並可以作技術性剔除,否則應保留。
(二)統計檢驗的取捨
在無確切的技術性的原因將可疑數據剔除時,則需進一步用統計性的法則進行檢驗和取捨。對測定值或測量值進行統計檢驗的目的是為了判斷所測數據是否來自同一總體,是否存在應剔除的離群值。統計性檢驗可疑數據的法則有“4d”檢驗法、拉依達檢驗法、“Q”檢驗法、格拉布斯(Grubbs)檢驗法、狄克遜(Dixon)檢驗法和科克倫(Cochran)檢驗法等,其中最常用的是後三種。在GB6379-86《測試方法的精密度通過檢驗室間試驗確定標準測試方法的重複性和再現性》中指出,格拉布斯檢驗和狄克遜檢驗,都必須分別獨立進行。格拉布斯檢驗只進行一次。兩種檢驗結果分別記錄在冊。如只發現一個異常值,則取格拉布斯所得的結果;如發現多個異常值,則取狄克遜檢驗所得的結果。