概念
效度是測量的有效性程度,即測量工具確能測出其所要測量特質的程度,或者簡單地說是指一個測驗的準確性、有用性。效度是科學的測量工具所必須具備的最重要的條件。在社會測量中,對作為測量工具的問卷或量表的效度要求較高。鑑別效度須明確測量的目的與範圍,考慮所要測量的內容並分析其性質與特徵,檢查測量的內容是否與測量的目的相符,進而判斷測量結果是否反映了所要測量的特質的程度;
性質
1.效度具有相對性
任何測驗的效度是對一定的目標來說的,或者說測驗只有用於與測驗目標一致的目的和場合才會有效。 所以,在評價測驗的效度時,必須考慮效度測驗的目的與功能。
2.效度具有連續性
測驗效度通常用相關係數表示,它只有程度上的不同,而沒有“全有”或“全無”的區別。效度是針對測驗結果的。
功能
一、預測誤差
效度係數的實際意義常常以決定性係數來表示,意旨相關係數的平方,它表示測驗正確預測或解釋的效標的方差占總方差的比例。
二、預測效標分數
(從預測分數預測效標成績)如果X與Y兩變數呈直線相關,只要確定出二者間的回歸方程,就可以從一個變數推估出另一個變數。
三、預測效率指數
(比盲目預測減少的誤差)
類型
內部效度
內部效度的概念
研究的內部效度是指在研究的自變數與因變數之間存在一定關係的明確程度。如果自變數和因變數之間關係並不會由於其它變數的存在受到影響,從而變得模糊不清或複雜化,那么這項研究就具有內部效度。它所涉及的問題是:
(1)所研究的兩個或多個變數之間是否存在一定的關係?
(2)是否確實是自變數的變化引起了因變數的變化?
研究設計要對可能涉及的各種變數進行有效的控制與消除,使與研究目標無關的變數對研究結果的影響很小或沒有影響,,因而,研究變數之間(如自變數與因變數之間)的關係是確定的和真實的,意味著一項研究的內部效度高。
影響內部效度的因素
影響內部效度的因素比較多,歸納起來,主要有歷史、研究被試、研究手段方法和程式、統計回歸效應四方面因素。
內部效度的條件
研究的內部效度不會自動形成。內部效度的獲得,主要是通過研究設計,認真細緻地選擇變數,切實控制好各種變數,保證研究變數之間的確定關係,消除與研究目標無關的變數對研究結果的影響。上述4種方面的因素,都是在研究中應特別注意控制的,最有效的途徑是採用隨機化程式。對於教育科學研究的各種具體情況(例如不同的研究活動),影響內部效度的因素種類、數量、作用大小會有一定的差別,應該根據具體情況加以分析、預估、識別、並採取適當措施予以控制或消除,以提高研究的內部效度。
外部效度
外部效度
研究的外部效度是指研究結果能夠一般化和普遍適用到樣本來自的總體和到其它的總體中的程度,即研究結果和變數條件、時間和背景的代表性和普遍適用性。外部效度可以細分為總體效度和生態效度兩類。
總體效度指研究結果能夠適應於研究樣本來自的總體的程度與能力,或說對總體的普遍意義。要使研究結果適用於總體,就必須從總體中隨機選取樣本,使樣本對總體具有代表性。如果研究所選樣本有偏差或數量太小,不足以代表總體,其結果就難以對總體特徵進行概括。
生態效度是指研究結果可以被概括化和適應於其它研究條件和情景的程度和能力。要使研究結果能夠適用於其它研究條件和情景(例如,自變數與因變數、研究程式、研究背景、研究時間和研究者等方面的不同),就必須特別設計研究條件與情景,保證對其它條件、情景有代表性。
一般認為,內部效度是外部效度的必要條件,但不是充分條件。內部效度低的研究結果就談不上對其它情景的普遍意義;可是內部效度高的研究,其結果卻不一定能夠一般化到其它總體和背景中去。教育科學研究的重要意義是要發現教育活動的普遍規律,指導教育工作的開展。因此,提高研究結果的外部效度十分重要。一項研究的內部效度再高,如果其結果僅適應於特定的範圍,特定的測量工具、特定研究程式和特定的研究條件等,那么,從獲取一般知識和揭示普遍規律的角度來看,其價值、意義不大。因此,研究的外部效度與內部效度在重要性上毫不遜色。
影響外部效度的因素
影響外部效度的因素主要有4個方面:研究被試方面、變數的定義和測試方面、研究手段和程式方面、實驗者方面。
外部效度的條件
上述4方面因素,有時單獨存在,有時同時存在若干方面的影響。要提高研究的外部效度,必須注意在研究中消除和控制上述各種影響因素。外部效度的要求是研究能夠符合客觀情況,適用於更大的總體。其中,關鍵的一環就是做好取樣工作。取樣工作不但包括被試的取樣,而且也包括有代表性的研究背景(工作場所、學校、家庭、實驗室)、研究工具、研究程式和時間等的選擇。取樣的背景與實際情景越接近,研究結果的可用性、適用性、推廣性就越強。一般來說,隨機取樣,提高模擬現實情景的程度,採用多種相關的研究方法,變化研究條件尋求具有普遍意義的結論,是獲得外部效度、提高研究結果可套用性的重要條件。
構思效度
構思效度簡介
研究的構思效度是指理論構思或假設的合理性、科學性,及其轉換為研究目標的恰當程度和可操作性。它涉及建立研究方案和測量指標的理論構思(或觀察指標的理論構想)及其操作化等方面的問題,即理論構思及其轉換的有效性。為了使研究具有較高的構思效度,研究的理論構思首先要結構嚴謹、層次分明,形成某種“構思網路”,其次對研究內容做出嚴格的抽象與操作性定義(如針對研究構思的特點,給予明確的操作定義)。
影響構思效度的因素
影響構思效度的因素主要有3方面:研究構思方面、研究手段和程式方面、實驗者的主觀期望和被試者對研究的猜測。
構思效度的條件
使研究具有較高的構思效度,應該滿足以下4個條件:
(1)理論構思要結構嚴謹、符合邏輯、層次分明,形成某種“構思網路”。例如,將兒童的自我意識發展分為自我認識、自我體驗和自我控制三方面,而自我認識進一步細分為對生理自我的認識、對心理自我的認識和對社會自我的認識。這樣的理論構思,就比較嚴謹、完整,有層次,並且形成一種“網路”,便於理解和研究。
(2)清晰、準確的界定研究的環境條件和變數。例如,“國小五年級學生髮散思維問題研究”這樣一個課題,對研究被試的年齡段,生理智力發展,學習、生活、社會環境等需要明確界定範圍,用文字和語言兩種形式完整、準確地表述研究變數。
(3)對研究變數做出準確、嚴格的操作定義,並選擇對應、客觀的觀測指標。
(4)避免採用單一方法或單一指標去代表或分析多維的、多層次的、多側面的事物和活動,儘可能採用多種方法、多種指標,從不同角度分析研究相同的理論構思。
教育科學研究常常包含著複雜的、多維度的理論構思,如何提高研究的構思效度是進行研究設計時需要加以特別重視的問題,也是提高教育科學研究水平的重要內容。
統計結論效度
統計結論效度是關於研究的數據分析處理程式的效度檢驗,或者說,它是檢驗研究結果的數據分析程式與方法的有效性的指標。統計結論效度的基本問題是研究誤差、變異來源與如何適當地運用統計顯著性檢驗,它不涉及系統性偏差的來源問題,而是研究誤差變異情況和如何適當運用統計顯著性檢驗的問題。例如,採用小樣本的研究數據時,由於樣本成份與測量數據都波動比較大,穩定性差,如果依賴統計顯著性水平做出推論是不可靠的。在這種情況下,應該運用功效分析(power analysis),看看一定的樣本範圍、變異程度和α水平上能夠檢驗出多大的效應。這就是統計結論效度所考慮的問題。
影響統計效度的因素
影響統計效度的因素主要有方面:統計功效低、違反統計方法的使用條件、測量信度低。
統計結論效度的條件
研究的統計結論效度主要取決於兩個方面的條件:一是數據的質量,數據分析程式的效度是以數據的質量作為基礎的,數據質量差的研究是談不上統計結論效度的;二是統計檢驗方法,數據分析中所採用的各種統計方法,都有其明確的統計檢驗條件的要求,一項研究中統計檢驗條件不明確或者被違反,就會顯著降低統計結論效度。
評估方法
內容效度
(content-related validity)
一什麼是內容效度
內容效度指的是測驗題目對有關內容或行為取樣的適用性,從而確定測驗是否是所欲測量的行為領域的代表性取樣。
二內容效度的評估方法
1.專家判斷法; 2.統計分析法(評分者信度\複本信度\折半信度\再測法); 3.經驗推測法 (實驗檢驗)
三內容效度的特性
內容效度經常與表面效度(face validity)混淆。表面效度是由外行對測驗作表面上的檢查確定的,它不反映測驗實際測量的東西,只是指測驗表面上看來好像是測量所要測的東西;內容效度是由夠資格的判斷者(專家)詳盡地、系統地對測驗作評價而建立的。
構想效度
(construct-related validity)
一什麼是構想效度
指測驗能夠測量到理論上的構想或特質的程度,即測驗的結果是否能證實或解釋某一理論的假設、術語或構想,解釋的程度如何。
二構想效度的估計方法
1.對測驗本身的分析(用內容效度來驗證構想效度)
2.測驗間的相互比較:相容效度(與已成熟的相同測驗間的比較)、區分效度(與近似或應區分測驗間的比較)、因素分析法
3.效標效度的研究證明
4.實驗法和觀察法證實
效標效度
(criterion-related validity)
效標,即衡量測驗有效性的參照標準,指的是可以直接而且獨立測量的我們感興趣的行為。我們感興趣的行為,就是要預測的行為,這是一個總的觀念,故必須以可操作的測量來確定才有實際意義。因此有必要把效標細分為兩個層次,其一是理論水平的“觀念效標”,其二是操作定義水平的“效標測量”。
效標效度又稱實證效度,反映的是測驗預測個體在某種情境下行為表現的有效性程度。
根據效標資料是否與測驗分數同時獲得,又可分為同時效度(實際士氣高和士氣低的人在士氣測驗中的得分一致性。)和預測效度兩類。
常用的效標包括
1、學業成就:如在校成績、學歷、有關的獎勵和榮譽、教師對學生智力的評定等,常作為智力測驗的效標,也可作為某些多重能力傾向測驗和人格測驗的效標;
2、實際工作表現:是最滿意的效標測量,為一般智力測驗、人格測驗和一些能力傾向測驗的效標;
3、特殊訓練成績;
4、精神病診斷;
5、等級評定:是觀察者根據測驗欲測量的心理特質在被試身上的表現而作出的一種個人判斷;
6、效標團體的比較:即找出兩個在效標表現上有差別的團體,比較他們在測驗分數上的差別;
7、先前有效的測驗:一個新測驗與先前有效的測驗的相關也經常作為效度檢驗的證據。
一個好的效標必須具備以下條件:
①效標必須能最有效地反映測驗的目標,即效標測量本身必須有效;
②效標必須具有較高的信度,穩定可靠,不隨時間等因素而變化;
③效標可以客觀地加以測量,可用數據或等級來表示;
④效標測量的方法簡單,省時省力,經濟實用。
效標效度的評估方法
1. 相關法:效度係數是最常用的效度指標,尤其是效標效度。它是以皮爾遜積差相關係數來表示的,主要反映測驗分數與效標測量的相關。當測驗成績是連續變數,而效標資料是二分變數時,計算效度係數可用點二列相關公式或二列相關公式;當測驗分數為連續變數,效標資料為等級評定時,可用賈斯朋多系列相關公式計算。
2. 區分法:是檢驗測驗分數能否有效地區分由效標所定義的團體的一種方法。算出t值後,便可知道分數的差異是否顯著。若差異顯著,說明該測驗能夠有效地區分由效標定義的團體,否則,測驗是無效的。重疊百分比可以通過計算每一組內得分超過(或低於)另一組平均數的人數百分比得出;另外,還可以計算兩組分布的共同區的百分比。重疊量越大,說明兩組分數差異越小,即測驗的效度越差。
3. 命中率法:是當測驗用來做取捨的依據時,用其正確決定的比例作為效度指標的一種方法。命中率的計算有兩種方法,一是計算總命中率,另一種是計算正命中率。
4、 預期表法:是一種雙向表格,預測分數排在表的左邊,效標排在表的頂端。從左下至右上對角線上各百分數字越大,而其它的百分數字越小,表示測驗的效標效度越高 ;反之,數字越分散,則效度越低。
鑑定程式
從內容效度﹐到準則效度﹐再到構念效度﹐可視為一種累進﹐即構念效度需要比準則效度更多的信息﹐準則效度需要比內容效度更多的信息。
效度比信度有更高的要求﹐信度是效度的必要條件﹐沒有信度的測量工具就談不上具有效度﹐但信度高的測量工具未必具有高的效度。
影響因素
一、測驗本身的因素
測驗取材的代表性、測驗長度、試題類型、難度、區分度以及編排方式等都會影響效度。
二、測驗實施中的干擾因素
一主試的影響因素
二被試的影響因素
三、樣本團體的性質
一樣本團體的異質性
二干涉變數:樣本團體的性質包括包括年齡、性別、教育水平、智力、動機、興趣、職業和任何有關的特徵,由於這些特徵的影響,使得測驗對於不同具有不同的測驗能力。
吉賽利提出的如何找出干涉變數的一套方法:
①用回歸方程求得每個人的預測效標分數,將該分數與實際效標分數想比較,獲得差異分數D.如果D的絕對值很大,說明測驗中可能存在干涉變數。
②根據樣本團體的組成分析,找出對照組,分別計算效度,從而象上述關於出租汽車司機的例子一樣,找出干涉變數。
③對於欲測團體,根據某些易見的干涉變數將其區分為預測性高和預測性低的兩個亞團體。對於預測性高的團體,獲得的測驗效度會有所提高。
四、效標的性質
一個好的效標必須具備以下條件:
①效標必須能最有效地反映測驗的目標,即效標測量本身必須有效;
②效標必須具有較高的信度,穩定可靠,不隨時間等因素而變化;
③效標可以客觀地加以測量,可用數據或等級來表示;
④效標測量的方法簡單,省時省力,經濟實用。
測試維度
1)表面效度(face validity)。指測試應達到的卷面標準,即一套測試題從表面看來是否是合適的。例如,若一次閱讀理解力的測試包括許多受試者沒有學過的方言辭彙,則可認為這次測試缺乏表面效度。表面效度是測試出受試者正常水平的一種保證因素。
2)內容效度(content validity)。指一套測試題是否測試了應該測試的內容或者說所測試的內容是否反映了測試的要求,即測試的代表性和覆蓋面的程度。例如,如果某一套發音技能測試題僅僅考查發音所必須具備的某些技能,如只考單一音素的發音,而不考查重讀、語調或音素在詞語中的發音,那么,該測試的內容效度就很低。
3)編制效度(construct validity)。指一套測試題的諸項目對編制該測試所依據的理論的各個基本方面的反映程度。例如,以結構主義語言理論為基礎,認為系統的語言習慣是通過句型而獲得的,那么,強調辭彙和語法環境的測試題目就失去了編制效度。
4)經驗效度(empirical validity)。經驗效度是一種衡量測試有效性的量度,通過把一次測試與一個或多個標準尺度相對照而得出。經驗效度可分為兩種:一是共時效度(concurrent validity),即將一次測試的結果同另一次時間相近的有效測試的結果相比較,或同教師的鑑定相比較而得出的係數;二是預測效度(predictive validity),即將一次測試的結果同後來的語言能力相比較,或是同教師後來對學生的鑑定相比較而得出的係數。
一般來說,對某次測試的效度進行檢驗時,除了要根據教學大綱的要求和觀念有效性的理論對試卷的內容進行考查以外,還須採用計算相關係數的定量方法,即計算出本次試卷與另一份已被確定能正確反映受試者水平的試卷之間的相關係數。係數高則有效性大。課堂測試的效度應在0.4-0.7之間,規模較大的測試其效度應在0.7以上。
效度分析
效度分析有多種方法,其測量結果反映效度的不同方面。常用於調查問卷效度分析的方法主要有以下幾種。
單項與總和相關效度分析
表面效度(Face Validity)。也稱為內容效度或邏輯效度,指的是測量的內容與測量目標之間是否適合,也可以說是指測量所選擇的項目是否“看起來”符合測量的目的和要求。主要依據調查設計人員的主觀判斷。
這種方法用於測量量表的內容效度。內容效度又稱表面效度或邏輯效度,它是指所設計的題項能否代表所要測量的內容或主題。對內容效度常採用邏輯分析與統計分析相結合的方法進行評價。邏輯分析一般由研究者或專家評判所選題項是否“看上去”符合測量的目的和要求。統計分析主要採用單項與總和相關分析法獲得評價結果,即計算每個題項得分與題項總分的相關係數,根據相關是否顯著判斷是否有效。若量表中有反意題項,應將其逆向處理後再計算總分。
準則效度分析
準則效度(Criterion Validity)。又稱為效標效度或預測效度。準則效度是指量表所得到的數據和其他被選擇的變數(準則變數)的值相比是否有意義。根據時間跨度的不同,準則效度可分為同時效度和預測效度。準則效度分析是根據已經得到確定的某種理論,選擇一種指標或測量工具作為準則(效標),分析問卷題項與準則的聯繫,若二者相關顯著,或者問卷題項對準則的不同取值、特性表現出顯著差異,則為有效的題項。評價準則效度的方法是相關分析或差異顯著性檢驗。在調查問卷的效度分析中,選擇一個合適的準則往往十分困難,使這種方法的套用受到一定限制。
結構效度分析
結構效度(Construct Validity)。是指測量結果體現出來的某種結構與測值之間的對應程度。結構效度分析所採用的方法是因子分析。最關心的問題是:量表實際測量的是哪些特徵?在評價建構效度時,調研人員要試圖解釋“量表為什麼有效”這一理論問題以及考慮從這一理論問題中能得出什麼推論。結構效度包括同質效度、異質效度和語意邏輯效度。有的學者認為,效度分析最理想的方法是利用因子分析測量量表或整個問卷的結構效度。因子分析的主要功能是從量表全部變數(題項)中提取一些公因子,各公因子分別與某一群特定變數高度關聯,這些公因子即代表了量表的基本結構。通過因子分析可以考察問卷是否能夠測量出研究者設計問卷時假設的某種結構。在因子分析的結果中,用於評價結構效度的主要指標有累積貢獻率、共同度和因子負荷。累積貢獻率反映公因子對量表或問卷的累積有效程度,共同度反映由公因子解釋原變數的有效程度,因子負荷反映原變數與某個公因子的相關程度。