修讀教育學程和實施藝術教學的過程中,我發現「評量」這個環節總是有許多的困難,需要教學者不斷的思考、調整。在評量或測驗學生學習成果時,往往會以成果去做評估的基準,但是每位學生所適合的評量方式卻不盡相同,未必每位學生、每種科目都適合使用固定一種的評量標準。
在評量的環節裡,包含了兩個重大面向:信度和效度。不過在一開始的時候,我常常搞不清楚應該如何分辨哪些算是信度,哪些算是效度?這學期修了多元學習與評量的課程,授課老師推薦了這本書作為參考,閱讀後我發現它將內容做了詳細的整理,對於區分信度和效度的類型、細項很有幫助。
相信日後遇到需要檢測辦學效果的情形時,讀者都能仰賴自本書獲得的經驗值,藉由有系統、周延、效率的蒐集學生多方面的資料,以客觀分析來形成結論。
作者:王文中
出版社:五南圖書出版股份有限公司
出版日期:2004年9月
■ 要想檢測辦學效果,需要仰賴測驗與評量,其中必須有系統、周延、效率的蒐集學生多方面的資料,客觀分析以形成結論。
■ 測驗與評量時,需分為信度和效度
■ 測量分為直接測量(可直接觀察到的自然界特質)和間接測量(無法直接觀察到的心理特質或能力)
■ 信度的意義
→測量結果的可重複性(穩定性、一致性)程度
→不同人、不同時間測量的結果是否相同
→古典測驗理論(Classical Test Theory)
→真分數理論(True Score Theory) X=T+E
X:observed score 觀察分數
T:true score 真分數
E:error 誤差
■ 測量一定會包含誤差
→測量誤差:會影響測驗分數的無關因素
*評量所得結果和「真分數(true score)」間的差距
■ 誤差的種類:
→系統誤差systematic errors:偏離真值的現象在每次測量均會發生
→隨機誤差unsystematic errors:偏離真值的現象隨機產生,其出現的機率不可預測
■ 信度的特性:
信度在測量領域的意義,等於一致性;測量結果不受測量誤差影響的程度
信度並非「全有或全無」,而是程度的問題
信度是估計的
信度係數的定義
真分數變異量與觀察分數變異量之間的比值
■ 估計信度的方法:
➢ 再測信度:
test-retest reliability,又稱穩定係數
在不同的時間,重複實施同一評量工具
同一群受測者兩次施測所得分數間的相關
目標在評估評量結果能類化到不同時間點的程度
誤差來源主要來自施測時間點的差異
➢ 複本信度:
equivalent-forms
估計複本信度須用兩個不同題本但內容等同的評量工具
在不同的時間,實施不同形式但內容相當的兩個評量工具
同一群受測者兩次施測所得分數間的相關
誤差來源為內容取樣誤差(content sampling):
因為題目選擇的隨機因素所造成的分數變異
➢ 內部一致性信度:
internal-consistency
受測者在同一測驗中的各評量試題上的表現一致的程度
同一群受測者一次施測所得分數間的相關
內部一致性信度的大小反映的是內容取樣的誤差,及題目的同質性程度
折半信度
Cronbach’salpha係數
內部一致性係數的特質與限制
不能用來估計速度測驗的信度
折半法無法得到單一的信度估計值
若某特質包含的次向度之間的相關性並不高,則Cronbach’s alpha係數會降低,
但不表示其信度低(如:生活品質可分為人際關係、居住品質…)
→domain heterogeneity異質性
➢ 評分者間信度:
評分者信度即在估計不同評分者,對同一表現評分的一致性程度
相關係數:
著重不同評分者對於受評量者表現的排序是否相同
符合度(agreement):
重視不同評分者所給的絕對分數是否相同,能夠反映評分者給分嚴苛程度的一致性
符合度、Kappa係數
■ 效度的意義
→測驗是否測量到當初界定特質的程度
→從測驗分數推論出來的結論是否合適、有意義、有用
→是否與社會脈絡結合
■ 效度的性質
效度是一個整體的概念,包含各種形式的證據
效度是一個永遠在發展的連續過程→有效化歷程(validation)
效度並非全有或全無的狀態,而是程度上的問題
信度與效度的關係
■ 效度證據的來源
➢ 與內容有關聯的(content-related)效度
→測驗題目是否能代表欲測量的行為(內容)範疇
效度證據:判斷方式(專家評估/雙向細目表)
內容證據的限制:
測驗題目在「內容」上具有代表性,但受評者在深度上不瞭解題意,可能導致題目
無法反映其能力/考試技巧的影響
表面效度:face validity,題目看起來是否符合測驗目的,影響受測者的作答意願
➢ 與效標有關聯的(criterion-related)效度→測驗表現與另一效標的關係程度
意義:指編製測驗結果(英文學習成績)與效標(英語學習能力)間的關係分為:
- 同時效度(concurrent validity):測驗與效標同時收集
- 預測效度(predictive validity):測驗與效標前後收集預測
計算方式:測驗與效標間的相關係數
僅從一個相關係數無法充分解釋效度
選取效標關聯證據的注意事項
→要確立效標本身的合適性和有效性(信效度),才能討論測驗工具所
評量出的結果可推論至意圖要測的能力或特質
→不能有效標汙染(criterion contamination),例如:筆試、口試
→留意全距限制(restriction of range)
➢ 與建構有關聯的(construct-related)效度→測驗是否真的測得該特質
(範圍最廣的效度,可包含前兩項)
意義:
→測驗能夠測量到理論上的構念或特質的程度
→根據心理學或社會學中描述某種特質的理論,就測驗分數所代表的意義進行的分析和解釋
→任何效度證據,包括內容證據、效標關聯證據等都只是建構效度的部分證據
→當理論模糊未顯時,建構效度更顯重要,因為它是測驗所得結果的意義及詮釋的基礎