更新於 2024/10/14閱讀時間約 8 分鐘

[ 閱讀小札 ] 教育測驗與評量—教室學習觀點

修讀教育學程和實施藝術教學的過程中,我發現「評量」這個環節總是有許多的困難,需要教學者不斷的思考、調整。在評量或測驗學生學習成果時,往往會以成果去做評估的基準,但是每位學生所適合的評量方式卻不盡相同,未必每位學生、每種科目都適合使用固定一種的評量標準。

在評量的環節裡,包含了兩個重大面向:信度和效度。不過在一開始的時候,我常常搞不清楚應該如何分辨哪些算是信度,哪些算是效度?這學期修了多元學習與評量的課程,授課老師推薦了這本書作為參考,閱讀後我發現它將內容做了詳細的整理,對於區分信度和效度的類型、細項很有幫助。

相信日後遇到需要檢測辦學效果的情形時,讀者都能仰賴自本書獲得的經驗值,藉由有系統、周延、效率的蒐集學生多方面的資料,以客觀分析來形成結論。



教育測驗與評量 : 教室學習觀點 (第2 版)

作者:王文中

出版社:五南圖書出版股份有限公司

出版日期:2004年9月


部分重點整理:


■ 要想檢測辦學效果,需要仰賴測驗與評量,其中必須有系統、周延、效率的蒐集學生多方面的資料,客觀分析以形成結論。

■ 測驗與評量時,需分為信度和效度

■ 測量分為直接測量(可直接觀察到的自然界特質)和間接測量(無法直接觀察到的心理特質或能力)

■ 信度的意義

→測量結果的可重複性(穩定性、一致性)程度

→不同人、不同時間測量的結果是否相同

→古典測驗理論(Classical Test Theory)

→真分數理論(True Score Theory) X=T+E 

X:observed score 觀察分數 

  T:true score 真分數

E:error 誤差

■ 測量一定會包含誤差

→測量誤差:會影響測驗分數的無關因素

       *評量所得結果和「真分數(true score)」間的差距

■ 誤差的種類:

→系統誤差systematic errors:偏離真值的現象在每次測量均會發生

→隨機誤差unsystematic errors:偏離真值的現象隨機產生,其出現的機率不可預測

■ 信度的特性:

信度在測量領域的意義,等於一致性;測量結果不受測量誤差影響的程度

信度並非「全有或全無」,而是程度的問題

信度是估計的

信度係數的定義

真分數變異量與觀察分數變異量之間的比值

■ 估計信度的方法:

➢ 再測信度:

  test-retest reliability,又稱穩定係數

在不同的時間,重複實施同一評量工具 

同一群受測者兩次施測所得分數間的相關

  目標在評估評量結果能類化到不同時間點的程度

誤差來源主要來自施測時間點的差異

➢ 複本信度:

equivalent-forms

估計複本信度須用兩個不同題本但內容等同的評量工具

在不同的時間,實施不同形式但內容相當的兩個評量工具

同一群受測者兩次施測所得分數間的相關

誤差來源為內容取樣誤差(content sampling):

因為題目選擇的隨機因素所造成的分數變異

➢ 內部一致性信度:

internal-consistency

受測者在同一測驗中的各評量試題上的表現一致的程度

同一群受測者一次施測所得分數間的相關

內部一致性信度的大小反映的是內容取樣的誤差,及題目的同質性程度

折半信度

Cronbach’salpha係數

內部一致性係數的特質與限制

不能用來估計速度測驗的信度

折半法無法得到單一的信度估計值

若某特質包含的次向度之間的相關性並不高,則Cronbach’s alpha係數會降低,

但不表示其信度低(如:生活品質可分為人際關係、居住品質…) 

→domain heterogeneity異質性

➢ 評分者間信度:

評分者信度即在估計不同評分者,對同一表現評分的一致性程度

相關係數:

著重不同評分者對於受評量者表現的排序是否相同

符合度(agreement):

重視不同評分者所給的絕對分數是否相同,能夠反映評分者給分嚴苛程度的一致性

符合度、Kappa係數

■ 效度的意義

→測驗是否測量到當初界定特質的程度

→從測驗分數推論出來的結論是否合適、有意義、有用

→是否與社會脈絡結合

■ 效度的性質

效度是一個整體的概念,包含各種形式的證據

效度是一個永遠在發展的連續過程→有效化歷程(validation)

效度並非全有或全無的狀態,而是程度上的問題

信度與效度的關係

■ 效度證據的來源

➢ 與內容有關聯的(content-related)效度

→測驗題目是否能代表欲測量的行為(內容)範疇

    效度證據:判斷方式(專家評估/雙向細目表)

內容證據的限制:

測驗題目在「內容」上具有代表性,但受評者在深度上不瞭解題意,可能導致題目

無法反映其能力/考試技巧的影響

表面效度:face validity,題目看起來是否符合測驗目的,影響受測者的作答意願

➢ 與效標有關聯的(criterion-related)效度→測驗表現與另一效標的關係程度

意義:指編製測驗結果(英文學習成績)與效標(英語學習能力)間的關係分為:

- 同時效度(concurrent validity):測驗與效標同時收集

- 預測效度(predictive validity):測驗與效標前後收集預測

計算方式:測驗與效標間的相關係數

僅從一個相關係數無法充分解釋效度

選取效標關聯證據的注意事項

→要確立效標本身的合適性和有效性(信效度),才能討論測驗工具所

  評量出的結果可推論至意圖要測的能力或特質

→不能有效標汙染(criterion contamination),例如:筆試、口試

→留意全距限制(restriction of range)

➢ 與建構有關聯的(construct-related)效度→測驗是否真的測得該特質

(範圍最廣的效度,可包含前兩項)

意義:

→測驗能夠測量到理論上的構念或特質的程度

→根據心理學或社會學中描述某種特質的理論,就測驗分數所代表的意義進行的分析和解釋

→任何效度證據,包括內容證據、效標關聯證據等都只是建構效度的部分證據

→當理論模糊未顯時,建構效度更顯重要,因為它是測驗所得結果的意義及詮釋的基礎

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.