[ 閱讀小札 ] 教育測驗與評量

修讀教育學程和實施藝術教學的過程中，我發現「評量」這個環節總是有許多的困難，需要教學者不斷的思考、調整。在評量或測驗學生學習成果時，往往會以成果去做評估的基準，但是每位學生所適合的評量方式卻不盡相同，未必每位學生、每種科目都適合使用固定一種的評量標準。

在評量的環節裡，包含了兩個重大面向：信度和效度。不過在一開始的時候，我常常搞不清楚應該如何分辨哪些算是信度，哪些算是效度？這學期修了多元學習與評量的課程，授課老師推薦了這本書作為參考，閱讀後我發現它將內容做了詳細的整理，對於區分信度和效度的類型、細項很有幫助。

相信日後遇到需要檢測辦學效果的情形時，讀者都能仰賴自本書獲得的經驗值，藉由有系統、周延、效率的蒐集學生多方面的資料，以客觀分析來形成結論。

圖片來源：誠品線上

教育測驗與評量 : 教室學習觀點 (第2 版)

作者：王文中

出版社：五南圖書出版股份有限公司

出版日期：2004年9月

部分重點整理：

■ 要想檢測辦學效果，需要仰賴測驗與評量，其中必須有系統、周延、效率的蒐集學生多方面的資料，客觀分析以形成結論。

■ 測驗與評量時，需分為信度和效度

■ 測量分為直接測量(可直接觀察到的自然界特質)和間接測量(無法直接觀察到的心理特質或能力)

■ 信度的意義

→測量結果的可重複性(穩定性、一致性)程度

→不同人、不同時間測量的結果是否相同

→古典測驗理論(Classical Test Theory)

→真分數理論(True Score Theory) X=T+E

X：observed score 觀察分數

T：true score 真分數

E：error 誤差

■ 測量一定會包含誤差

→測量誤差：會影響測驗分數的無關因素

＊評量所得結果和「真分數(true score)」間的差距

■ 誤差的種類：

→系統誤差systematic errors：偏離真值的現象在每次測量均會發生

→隨機誤差unsystematic errors：偏離真值的現象隨機產生，其出現的機率不可預測

■ 信度的特性：

信度在測量領域的意義，等於一致性；測量結果不受測量誤差影響的程度

信度並非「全有或全無」，而是程度的問題

信度是估計的

信度係數的定義

真分數變異量與觀察分數變異量之間的比值

■ 估計信度的方法：

➢ 再測信度：

test-retest reliability，又稱穩定係數

在不同的時間，重複實施同一評量工具

同一群受測者兩次施測所得分數間的相關

目標在評估評量結果能類化到不同時間點的程度

誤差來源主要來自施測時間點的差異

➢ 複本信度：

equivalent-forms

估計複本信度須用兩個不同題本但內容等同的評量工具

在不同的時間，實施不同形式但內容相當的兩個評量工具

同一群受測者兩次施測所得分數間的相關

誤差來源為內容取樣誤差(content sampling)：

因為題目選擇的隨機因素所造成的分數變異

➢ 內部一致性信度：

internal-consistency

受測者在同一測驗中的各評量試題上的表現一致的程度

同一群受測者一次施測所得分數間的相關

內部一致性信度的大小反映的是內容取樣的誤差，及題目的同質性程度

折半信度

Cronbach’salpha係數

內部一致性係數的特質與限制

不能用來估計速度測驗的信度

折半法無法得到單一的信度估計值

若某特質包含的次向度之間的相關性並不高，則Cronbach’s alpha係數會降低，

但不表示其信度低(如：生活品質可分為人際關係、居住品質…)

→domain heterogeneity異質性

➢ 評分者間信度：

評分者信度即在估計不同評分者，對同一表現評分的一致性程度

相關係數：

著重不同評分者對於受評量者表現的排序是否相同

符合度(agreement)：

重視不同評分者所給的絕對分數是否相同，能夠反映評分者給分嚴苛程度的一致性

符合度、Kappa係數

■ 效度的意義

→測驗是否測量到當初界定特質的程度

→從測驗分數推論出來的結論是否合適、有意義、有用

→是否與社會脈絡結合

■ 效度的性質

效度是一個整體的概念，包含各種形式的證據

效度是一個永遠在發展的連續過程→有效化歷程(validation)

效度並非全有或全無的狀態，而是程度上的問題

信度與效度的關係

■ 效度證據的來源

➢ 與內容有關聯的(content-related)效度

→測驗題目是否能代表欲測量的行為(內容)範疇

效度證據：判斷方式(專家評估/雙向細目表)

內容證據的限制：

測驗題目在「內容」上具有代表性，但受評者在深度上不瞭解題意，可能導致題目

無法反映其能力/考試技巧的影響

表面效度：face validity，題目看起來是否符合測驗目的，影響受測者的作答意願

➢ 與效標有關聯的(criterion-related)效度→測驗表現與另一效標的關係程度

意義：指編製測驗結果（英文學習成績）與效標（英語學習能力）間的關係分為：

- 同時效度(concurrent validity)：測驗與效標同時收集

- 預測效度(predictive validity)：測驗與效標前後收集預測

計算方式：測驗與效標間的相關係數

僅從一個相關係數無法充分解釋效度

選取效標關聯證據的注意事項

→要確立效標本身的合適性和有效性(信效度)，才能討論測驗工具所

評量出的結果可推論至意圖要測的能力或特質

→不能有效標汙染(criterion contamination)，例如：筆試、口試

→留意全距限制(restriction of range)

➢ 與建構有關聯的(construct-related)效度→測驗是否真的測得該特質

（範圍最廣的效度，可包含前兩項）

意義：

→測驗能夠測量到理論上的構念或特質的程度

→根據心理學或社會學中描述某種特質的理論，就測驗分數所代表的意義進行的分析和解釋

→任何效度證據，包括內容證據、效標關聯證據等都只是建構效度的部分證據

→當理論模糊未顯時，建構效度更顯重要，因為它是測驗所得結果的意義及詮釋的基礎