定義
信度(reliability)即可靠性,它指的是採取同樣的方法對同一對象重複進行測量時,其所得結果相一致的程度。從另一方面來說,信度就是指測量數據的可靠程度。
舉例而言,對於“圖書館利用情況及滿意度調查問卷”的第一部分第1題,若對同一個人相隔3天,問同一個問
題,若第一次回答,被調查者選擇A、第二次回答選擇C、第三次回答選擇D,則說明對於該問題調查結果的信度低,因為調查結果的差異較大。若三次都選擇相同的答案或者差異較小的答案,則在排除系統誤差的條件下,說明調查結果的信度較高。
公式
若用
表示真實值,
表示偏差即系統誤差,
表示測量的隨機誤差,
表示測量結果,則有:
在上述分解式中,
是一個抽象的變數,是潛在的需要估計的值。系統誤差
是可通過採用一定的手段避免或減少的誤差,而隨機誤差
是無法避免的。
若測量得到的結果
與真實值
一致或者差異很小,則稱測量是“可靠的”或者是“可信的”;否則稱測量在某種程度上是“不可靠的”或者“不可信的”。
由於系統誤差
很難分解,而且在問卷的設計上要求儘量避免系統誤差,所以通常在信度分析中僅考慮隨機誤差。即在下式的基礎上,分析問卷的信度:
信度係數
概述
對於隨機誤差
,一般假定其期望值(平均值)為 0,且與真實值相獨立,在此假定下,有:
由於
與
相互獨立,所以有下式:
可見測量值的方差
等於真實值的方差
與誤差方差
之和,並且
與
的相對大小可用於描述調查結果的可信度。
越大說明測量的隨機誤差越大,測量的可信度越低。我們用信度係數
來表示信度的大小。
定義
問卷的信度係數
定義為:真實值的方差
在測量值方差
中所占的比例,即
或定義為:
越大,表明問卷調查的可信程度越大。
缺點
從上述信度的計算公式看,由於涉及誤差平方和,所以,需要對相同的調查對象,通過多次重複測量,在估計
、
取值的基礎上,才能得到信度估計。但是多次重測會帶來記憶效應及聯繫效應,而且會造成被調查者的反感,所以在調查研究中實現較為困難。
信度的估計
在對問卷的信度進行估計之前,需要通過採用適當的量表(如 Likert 量表)將問卷中的各類主觀的或客觀的備選答案轉化為數字形式,然後在此基礎上進行問卷評分(包括單項評分、相關題目分組評分和總評分等)。
信度分析的常用具體方法有重測信度、複本信度、分半信度、
信度係數法四種(後兩種可歸為內部一致性信度)。
重測信度
重測信度(test-retest reliability)也稱為再測信度,是對同一組被調查人員採用相同的調查問卷,在不同的時間點先後調查兩次,兩次調查結果之間的差異程度。重測信度反映了隨機誤差的影響。
重測信度所考察的誤差來源是時間的變化所帶來的隨機影響。在評估重測信度時,必須注意重測間隔的時間。對於人格測驗,重測間隔在兩周到6個月之間比較合適。
在進行重測信度的評估時,還應注意以下兩個重要問題:⑴重測信度一般只反映由隨機因素導致的變化,而不反映被試行為的長久變化。⑵不同的行為受隨機誤差影響不同。
缺點:重測信度有個兩難的矛盾。縮短兩次測試的時間間隔,被測試者較容易回憶出測試的題目;而延長兩次測試的時間間隔,則被測試者較容易受外部影響而變化。
複本信度
複本信度(Parallel-forms Reliability)又稱為等值性係數,是等值性信度(Equivalence Reliability)的一種,指問卷調查結果相對另一個非常相同的問卷調查結果的變異程度,是對同一組被調查人員運用兩份內容等價但題目不同的問卷進行調查,然後比較兩組數據的相關程度。
它比重測信度工作量大,因為,同一個測量工具(調查問卷、心理量表等)要構建兩個等值的複本,兩個複本要包含相同的數量、類型、內容、難度的題目。評估複本信度要用兩個複本對同一群受試者進行測試,再估算兩種複本測量分數的相關係數,相關係數越大,說明兩個複本構成帶來的變異越小,這與再測穩定性信度中考慮時間產生的變異不同,也就是說,相關係數反應的是測量分數的等值性程度,故複本信度又稱作等值性信度。
複本信度的主要優點在於:⑴能夠避免重測信度的一些問題,如記憶效果、練習效應等;⑵適用於進行長期追蹤研究或調查某些干涉變數對測驗成績影響;⑶減少了輔導或作弊的可能性。☆複本信度的局限性在於:⑴如果測量的行為易受練習的影響,則複本信度只能減少而不能消除這種影響;⑵有些測驗的性質會由於重複而發生改變;⑶有些測驗很難找到合適的複本。
內部一致性信度
主要反映的是測驗內部題目之間的
關係,考察測驗的各個題目是否測量了相同的內容或特質。內部一致性信度又分為分半信度和同質性信度。
1、分半信度(split-half reliability) 指一項調查中,調查問卷的兩半題目的調查結果的變異程度。是通過將測驗分成兩半,計算這兩半測驗之間的相關性而獲得的信度係數。測驗愈長,信度係數愈高。修正公式是斯皮爾曼-布朗公式。斯皮爾曼-布朗公式為校正分半信度的經驗公式(rtt=2rhh/(1+rhh) 一般來說,如果將測試分為均勻兩半的話分半係數rtt為0.5)
它的假設是兩半測驗分數的變異數相等。當假設不成立時,可以採用弗朗那根(Flanagan)公式或盧倫(kulon)公式之一,直接求得測驗的信度係數。
2、同質性信度是指測驗內部的各題目在多大程度上考察了同一內容。同質性信度低時,即使各個測試題看起來似乎是測量同一特質,但測驗實際上是異質的,即測驗測量了不止一種特質。同質性分析與項目分析中的內部一致性分析相類似。幾個計算同質性信度的公式:(1)庫德-理查遜公式(2)克倫巴赫α係數。對於一些複雜的、異質的心理學變數,採用單一的同質性測驗是不行的,因而常常採用若干個相對異質的分測驗。
評分者信度
是指不同評分者對同樣對象進行評定時的一致性。最簡單的估計方法就是隨機抽取若干份答卷,由兩個獨立的評分者打分,再求每份答卷兩個評判分數的相關係數。這種相關係數的計算可以用積差相關方法,也可以採用斯皮爾曼等級相關方法。
信度和效度的關係
問卷的信度與效度之間既有明顯的區別,又存在著相互聯繫、相互制約的關係。信度主要回答測量結果的一致性、穩定性和可靠性問題;效度主要回答測量結果的有效性和正確性問題。
效度和信度的關係可以用測量值的構成公式O=T S R來理解。如果測量是完全有效的,即0=T,S=0,R=0,此時測量必然是完全可信的,若量表的信度不足,它也不可能完全有效,因為有O=T R。如果量表是完全可信的,可以達到完全有效,也可能達不到,因為有可能存在導致誤差,雖然缺乏信度必然缺乏效度,但信度的大小並不能體現效度的大小。信度是效度的必要條件,但不是充分條件。從理論的角度來看,量應具有足夠的效度和信度;從實踐的觀點來看,一個好的量表還應該具有實用性。實用性指量表的經濟性、便利性和可解釋性。
一般來說,信度是效度的必要條件,也就是說,效度都必須建立在信度的基礎上;但是沒有效度的測量,即使它的信度再高,這樣的測量也是沒有意義的。信度和效度的關係有如下幾種類型:
①可信且有效
這種問卷準確地反映被調查人員的真實態度,問卷中的題目是和調查目標緊密關聯的。這種情況如圖8-8(a)所示,圖中(x,y)所在的實心點表示要測量的現象的真實情況,其餘點表示經過調查所得得測量結果。若調查結果能真實地反映所調查的對象,測量的誤差較小,則說明問卷調查的結果是可信而且有效的。
②可信但無效
這種問卷調查結果雖然能準確地反映被調查人員的真實態度,但問卷中題目與真實的調查目的的關聯程度較弱,與調查的目標不相一致。如圖8-8(b)所示。這種情況表明,雖然調查中所得的結果是可信的,但可能在某些環節上出了差錯,例如問卷中題目的設計使得所有的被調查人員都出現了理解的偏差,從而出現了系統性的偏差。
③不可信亦無效
在這種情況下,統計調查的結果分布較為分散,是難以從調查問卷中得出有效結果的,這是測量中應避免的類型。如圖8-8(c)所示。
測驗分數
信度分數
信度係數可以解釋為總的方差中有多少比例是由真實分數的方差決定的,也就是測驗的總變異中真分數造成的變異占百分之幾。
比較
當rxx﹤.70時,測驗不能用於對個人作出評價或預測,而且不能做團體比較;當.70≤rxx<.85時,可用於團體比較;當rxx≥.85時,才能用來鑑別或預測個人成就或作為。
個人分數的意義
作用:其一是估計真實分數的範圍;其二是了解實得分數再測時可能的變化情形。
例:在一個智力測驗中,某個被試的iQ為100,這是否反映了他的真實水平?如果再測一次,他的分數將改變多少?X―1.96SE
已知該智力測驗的標準差為15,信度係數為.84,則其iq的測量標準誤和可能範圍為:
SE=
IQ=100±1.966=100±11.76≈88~112
分數的差異
例;某被試在韋氏成人智力測驗中言語智商為102,操作智商為110。已知兩個分數都是以100為平均數,15為標準差的標準分數。假設言語測驗和操作測驗的分半信度分別為0.87和0.88。問其操作智商是否顯著高於言語智商呢?
首先計算出差異分數的標準誤:
在統計上,經常要求兩個分數的差異程度達到0.05的顯著水平,才能承認不是誤差的影響。因此,將差異標準誤(7.5)乘以1.96,結果為14.7,這表明個體在韋氏測驗兩半得分的差異高於大約15分,才能達到0.05顯著水平。上述被試的差異分數110-102=8是不顯著的。
鞘翅目(五)
鞘翅目通稱甲蟲。屬有翅亞綱、全變態類。具如下特點:體型大小差異甚大,體壁堅硬;口器咀嚼式;觸角形狀多樣,10-11節;前胸發達,中胸小盾片外露;前翅為角質硬化的鞘翅,後翅膜質;幼蟲為寡足型,少數為無足型等。 |