使用SPSS找出重複值

Dr. Rover

發佈於統計分析 × 學術生涯

2023/05/03 更新2023/04/13 發佈閱讀 3 分鐘

找出重複值可以幫助我們瞭解數據集中是否有重複記錄。重複記錄可能是由於數據收集過程中的錯誤或疏忽而造成的。例如，在填寫問卷時，一個人可能會多次填寫相同的資訊，這將導致重複記錄。

重複記錄可能影響分析結果的準確性和可靠性。例如，在統計分析中，重複記錄可能會使平均值、標準差等統計量的計算結果失真。同時，重複記錄也可能導致模型過度擬合而對於新數據的預測能力降低。

因此，在數據分析之前，找出重複值並刪除重複記錄是很重要的。這樣可以確保數據集是干凈的，並可以得到更準確、可靠的分析結果。

有許多原因可能導致資料中出現「重複的」觀察值，例如：

資料輸入錯誤，以致於無意中重複輸入相同的觀察值。
多個觀察值共用同一個主要 ID 值，但次要 ID 值並不一樣，例如，住在一起的家庭成員。

在SPSS中找出重複值的方法如下：

若要識別並標示重複的觀察值

從功能表中選擇：資料 > 識別重複的觀察值 ...
選取一個或多個識別觀察值的變數。
選取「要建立的變數」群組中的一個或多個選項。您可以選擇性地：
選取一個或多個變數，將組內觀察值依選取的配對觀察值變數排序。這些變數所定義的排序順序會決定每一組內的「第一」和「最後」觀察值。否則，將使用原始檔案順序。
自動過濾掉重複的觀察值，使其不會包含在報告、圖表或統計量的計算內。
主要觀察值的指標。建立一個變數；對於所有唯一觀察值和每一組相符觀察值中被識別為主要觀察值的觀察值，將此變數值設為 1，對於每一組內的非主要重複值，將此變數值設為 0。

主要觀察值可以是每個相符組內的最後或第一個觀察值，由相符組內的排序順序決定。如果不指定任何排序變數，就由原始檔案順序決定每一組內的觀察值順序。
您可以利用指標變數作為過濾變數，將非主要重複值排除在報表和分析外，而不須將這些觀察值從資料檔中刪除。

本範例中，我們想看所有受試者是不是有重複填答，所以透過電子信箱來檢視

如下圖。結果出現PrimaryLast變項，就是以重複出現最後一次的資料為主要(1)，其他為重複(0)，可以透過增減排序來統整看重複值和主要值。之後我們只針對選擇主要值作為觀察值，排除重複值

教育心理博士的筆記本統計分析 × 學術生涯SPSS

留言

留言分享你的想法！

教育心理博士的筆記本

261會員

139內容數

文章內容以圖像式和步驟化方式，教您如何在各種統計軟體中(例如:SPSS、R和Mplus)，執行多種統計方法。

教育心理博士的筆記本的其他內容

2024/11/28

多因子的變異數分析的同異質性假設沒過怎麼辦?

以前，若多因子的變異數分析的變異數同異質性假設未通過，那麼變異數分析的F值就會有所誤差，也沒有適當的無母數統計可以替代。最近，有學者提倡Welch-James統計量，這種方法相較於傳統的方差分析更具有穩健性，並且同樣可以檢驗因子主效應和交互作用。通過一些實際案例，我們展示瞭如何在R語言中使用本方法。