找出重複值可以幫助我們瞭解數據集中是否有重複記錄。重複記錄可能是由於數據收集過程中的錯誤或疏忽而造成的。例如,在填寫問卷時,一個人可能會多次填寫相同的資訊,這將導致重複記錄。
重複記錄可能影響分析結果的準確性和可靠性。例如,在統計分析中,重複記錄可能會使平均值、標準差等統計量的計算結果失真。同時,重複記錄也可能導致模型過度擬合而對於新數據的預測能力降低。
因此,在數據分析之前,找出重複值並刪除重複記錄是很重要的。這樣可以確保數據集是干凈的,並可以得到更準確、可靠的分析結果。
有許多原因可能導致資料中出現「重複的」觀察值,例如:
- 資料輸入錯誤,以致於無意中重複輸入相同的觀察值。
- 多個觀察值共用同一個主要 ID 值,但次要 ID 值並不一樣,例如,住在一起的家庭成員。
在SPSS中找出重複值的方法如下:
若要識別並標示重複的觀察值
- 從功能表中選擇:資料 > 識別重複的觀察值 ...
- 選取一個或多個識別觀察值的變數。
- 選取「要建立的變數」群組中的一個或多個選項。您可以選擇性地:
- 選取一個或多個變數,將組內觀察值依選取的配對觀察值變數排序。 這些變數所定義的排序順序會決定每一組內的「第一」和「最後」觀察值。 否則,將使用原始檔案順序。
- 自動過濾掉重複的觀察值,使其不會包含在報告、圖表或統計量的計算內。
- 主要觀察值的指標。 建立一個變數;對於所有唯一觀察值和每一組相符觀察值中被識別為主要觀察值的觀察值,將此變數值設為 1,對於每一組內的非主要重複值,將此變數值設為 0。
- 主要觀察值可以是每個相符組內的最後或第一個觀察值,由相符組內的排序順序決定。 如果不指定任何排序變數,就由原始檔案順序決定每一組內的觀察值順序。
- 您可以利用指標變數作為過濾變數,將非主要重複值排除在報表和分析外,而不須將這些觀察值從資料檔中刪除。
本範例中,我們想看所有受試者是不是有重複填答,所以透過電子信箱來檢視
如下圖。結果出現PrimaryLast變項,就是以重複出現最後一次的資料為主要(1),其他為重複(0),可以透過增減排序來統整看重複值和主要值。之後我們只針對選擇主要值作為觀察值,排除重複值