類型
目前,人機對話測試分單機版、區域網路版、遠程網路版幾大類型。隨著經濟高速發展,企業規模不斷擴大,網路技術日新月異,遠程網路版人機對話測試逐漸成為主流,它不僅避免了傳統紙筆測試在人力、物力、時間上的資源浪費,以及分數統計誤差,還能解決不同地區同時測試統一管理的問題。常識
標準化測驗標準化測驗是通過嚴格完整的程式編制的,具有事先確定的測驗題目、規範的施測流程、客觀的評分標準和標準的結果解釋系統,此外還有測驗的信度、效度和項目分析數據等相關資料用以說明測驗的質量。因此,一套好的標準化測驗的編製成本比較高,但相應地,它的科學性和價值也非常高,此外,一旦編製成功,它具有使用方便、經濟、客觀等特點。
編制一套標準化測驗時,專業研究人員通常要經過如下幾大步驟:確定與分析測量的目標和內容——題目的編寫與排列——預測與題目分析——題目修訂——規範測試程式和要求——樣本收集與建立常模——信度效度等相關分析——制定結果解釋
標準化測驗能夠對人的許多方面進行比較客觀的評價,尤其在評價底層潛在的、不易從行為表現中直接觀察出來的素質時,顯示出比較高的有效性,如個性特徵、智力、能力傾向、價值觀、興趣等。
信度
信度表示測量數據和結論的可靠性程度,即評價工具穩定地測評到它要測量的內容的程度。一般來說,檢驗信度有以下幾種方法:
重測信度:在恰當的時間間隔前後,重複同樣的測量,統計兩次測量結果的匹配程度。
複本信度:用原本和複本同時進行測量,統計原本和複本測量結果的相關程度。
分半信度:在沒有複本且不能重測的情況下,將同一測量內容的測驗題目隨機分成兩組,統計兩組測量結果的相關程度。
評分者信度:用於測量工具的標準化程度較低的情況下,比較典型的是評審主觀評分的測量。不同評審的判分標準會影響測量的信度,因此需用計算兩位評審評分的相關程度。
效度
效度表示評價的正確性程度,即評價工具準確地反映到它要測量的內容的程度。一般來說,檢驗效度有以下幾種方法:
內容效度:系統地檢查測量內容的適當性,即根據對要測量內容的了解去鑑別測驗題目。
準則效度:用已經被假設或定義為測量某一內容有效的工具作為效標,當用新的測量工具對該內容進行測量時,統計測量結果與效標測量結果的一致性程度。
結構效度:系統地檢查測量工具是否反映了要測量內容的概念和命題結構,這種方法常常在理論的研究中使用,因此也被稱為理論效度。
從信度和效度的關係上來看,信度不高,效度必定不高;信度高,效度不一定高;效度不高,信度不一定不高;效度高,信度必定高。
常模
測量結果是否準確,常模(Norm)的適合性是非常關鍵的因素。常模是一群人在同一測量工具中得分的分布情形,這群人就是獲得該常模的樣本。某人在某一測量工具中的得分,需要經過常模的比較才具有意義和參考價值。例如,某人完成100題數學題,答對了70題,那么他的成績屬於優秀、普通還是不及格,就需要和他同年齡、同教育水平的群體進行比較。因此,為使測量結果更為準確,常模需要依據性別、年齡、學歷,甚至所在區域、崗位性質、職位高低、行業背景等進行細分。
標準九分
它是一種標準分,將樣本的測驗原始得分劃分為9部分,最高是9分,最低1分,除1和9的範圍略大以外,其餘均是以5為中心向兩邊各包含0.5個標準差的分數段。簡單理解,即9為最高分,1為最低分,5為中間分。
掩飾性
受到測評動機的影響,被評價者在完成某些測驗(如個性特徵測驗)時,有時會掩飾自身的真實情況,揣測測驗編制者的出題用意,從社會讚許度較高的方向答題,容易導致測評結果不能準確反映被評價者的實際,甚至與實際截然相反。為鑑別真實回答與虛假回答,測驗編制者在非能力測評的測驗中加入掩飾性分量表,通過分析被評價在掩飾性分量表上的得分高低,了解其在測驗過程中是否存在掩飾性以及掩飾程度,從而推斷整個測驗結果的準確性和有效性。