使用SPSS找出重複值

更新於 發佈於 閱讀時間約 2 分鐘
找出重複值可以幫助我們瞭解數據集中是否有重複記錄。重複記錄可能是由於數據收集過程中的錯誤或疏忽而造成的。例如,在填寫問卷時,一個人可能會多次填寫相同的資訊,這將導致重複記錄。
重複記錄可能影響分析結果的準確性和可靠性。例如,在統計分析中,重複記錄可能會使平均值、標準差等統計量的計算結果失真。同時,重複記錄也可能導致模型過度擬合而對於新數據的預測能力降低。
因此,在數據分析之前,找出重複值並刪除重複記錄是很重要的。這樣可以確保數據集是干凈的,並可以得到更準確、可靠的分析結果。
有許多原因可能導致資料中出現「重複的」觀察值,例如:
  • 資料輸入錯誤,以致於無意中重複輸入相同的觀察值。
  • 多個觀察值共用同一個主要 ID 值,但次要 ID 值並不一樣,例如,住在一起的家庭成員。
在SPSS中找出重複值的方法如下:
若要識別並標示重複的觀察值
  1. 從功能表中選擇:資料 > 識別重複的觀察值 ...
  2. 選取一個或多個識別觀察值的變數。
  3. 選取「要建立的變數」群組中的一個或多個選項。您可以選擇性地:
  4. 選取一個或多個變數,將組內觀察值依選取的配對觀察值變數排序。 這些變數所定義的排序順序會決定每一組內的「第一」和「最後」觀察值。 否則,將使用原始檔案順序。
  5. 自動過濾掉重複的觀察值,使其不會包含在報告、圖表或統計量的計算內。
  6. 主要觀察值的指標。 建立一個變數;對於所有唯一觀察值和每一組相符觀察值中被識別為主要觀察值的觀察值,將此變數值設為 1,對於每一組內的非主要重複值,將此變數值設為 0。
  • 主要觀察值可以是每個相符組內的最後或第一個觀察值,由相符組內的排序順序決定。 如果不指定任何排序變數,就由原始檔案順序決定每一組內的觀察值順序。
  • 您可以利用指標變數作為過濾變數,將非主要重複值排除在報表和分析外,而不須將這些觀察值從資料檔中刪除。
本範例中,我們想看所有受試者是不是有重複填答,所以透過電子信箱來檢視
如下圖。結果出現PrimaryLast變項,就是以重複出現最後一次的資料為主要(1),其他為重複(0),可以透過增減排序來統整看重複值和主要值。之後我們只針對選擇主要值作為觀察值,排除重複值
avatar-img
224會員
124內容數
文章內容以圖像式和步驟化方式,教您如何在各種統計軟體中(例如:SPSS、R和Mplus),執行多種統計方法。此外,我還會分享一些學術和科技新知,幫助您在學術之路上走得更順利。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
心理博士的筆記本 的其他內容
科學研究主要檢驗變項之間的因果關係,在確認因果關係時,檢驗中介效應尤為重要,然而,社會科學中常收集的資料是多層次(巢套)資料。若使用傳統的中介分析容易忽略樣本之間的相關性,則會導致結果有偏誤,所以多層次中介分析旨在解決此問題,SPSS可以透過MLmed執行此方法,本文將介紹如何安裝MLmed
PROCESS macro for SPSS 可以用非常簡單方式進中介模式。本文將介紹三種類型的變項,還有如何操作最4.0版本的PROCESS macro for SPSS。文末也會附上所有所有Process模型圖例,提供給讀者方便分析~
我們將介紹各種類型的信度和統計方法,包含Cohen Kappa 係數、組內相關係數、α係數的SPSS教學。信度的可以使用不同的評估方法來評估。信度對於確定評分標準或量表的一致性和穩定度至關重要。
如果依變項並非連續變項時,就可以改用羅吉斯迴歸。接下來本文將介紹勝算、勝算比、計算範例、二元/順序/多項式羅吉斯迴歸分析範例和SPSS操作方法。
通常我們對於類別變項就直接看敘述統計大小,但如果我們想要用檢定確定兩者差距是達到統計顯著,就要用卡方檢定(Chi-square test)是一種統計學方法,獨立性考驗用於檢驗兩個類別變項各組別之間是否有顯著關聯。本文將介紹卡方檢定並介紹上機操作和事後比較方法。
科學研究主要檢驗變項之間的因果關係,在確認因果關係時,檢驗中介效應尤為重要,然而,社會科學中常收集的資料是多層次(巢套)資料。若使用傳統的中介分析容易忽略樣本之間的相關性,則會導致結果有偏誤,所以多層次中介分析旨在解決此問題,SPSS可以透過MLmed執行此方法,本文將介紹如何安裝MLmed
PROCESS macro for SPSS 可以用非常簡單方式進中介模式。本文將介紹三種類型的變項,還有如何操作最4.0版本的PROCESS macro for SPSS。文末也會附上所有所有Process模型圖例,提供給讀者方便分析~
我們將介紹各種類型的信度和統計方法,包含Cohen Kappa 係數、組內相關係數、α係數的SPSS教學。信度的可以使用不同的評估方法來評估。信度對於確定評分標準或量表的一致性和穩定度至關重要。
如果依變項並非連續變項時,就可以改用羅吉斯迴歸。接下來本文將介紹勝算、勝算比、計算範例、二元/順序/多項式羅吉斯迴歸分析範例和SPSS操作方法。
通常我們對於類別變項就直接看敘述統計大小,但如果我們想要用檢定確定兩者差距是達到統計顯著,就要用卡方檢定(Chi-square test)是一種統計學方法,獨立性考驗用於檢驗兩個類別變項各組別之間是否有顯著關聯。本文將介紹卡方檢定並介紹上機操作和事後比較方法。
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
這系列會以實際的資料來教學並練習,這篇資料取自Tableau的 Superstores 裡的Orders工作表,我們在做實際的數據分析以前,想要先來了解自己的資料。第一眼望去,總共有9994筆內容(+1筆欄位名),第一個問題來了,資料筆數會等於總訂單數嗎?更精確地說,到底有多少不重複的訂單?
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
如何在SQL實踐中EXCEL 常用功能 篩選 和 擷取文字串?需要熟練地使用分組(GROUP BY) 與 排序 (ORDER BY) 以及SUBSTRING_INDEX函數!
Thumbnail
本文探討了在使用 pandas 處理資料時應注意的幾個關鍵點,以及如何減少因資料型態問題而產生的錯誤,確保資料的原始意義得以保留。主要包括Pandas 資料處理深入解析,尋找CSV之外的數據儲存方案,以及優化資料處理策略。
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
題目敘述 題目會給定一個整數陣列nums,原本裡面包含有整數1到n,但是中間不小心出了差錯,導致有一個數字消失了,而另一個數字重複了。 請找出重複的數字以及消失的數字,並且 以陣列的形式[重複的數字, 消失的數字]返回這兩個數字。 例如: [1,3,3,4] 消失的數字是2,重複的數字是
Thumbnail
題目敘述 題目會給定一個pandas DataFrame作為輸入,要求我們以原有的資料表email欄位為比較基準,刪除重複的列 data rows,只保留最早第一次出現的。 題目的原文敘述 Example 1: Input: +-------------+---------+--------
Thumbnail
Sequential Feature Selection(SFS) 用中文來解釋為,逐一特徵選取訓練,找出最重要的特徵,以提高模型的性能和效率 SFS 的一些用途包括: 維度縮減: 在高維度數據中,許多特徵可能是多餘或不重要的,使用 SFS 可以找到最能代表數據的特徵,從而減少計算和記憶體需求
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
這系列會以實際的資料來教學並練習,這篇資料取自Tableau的 Superstores 裡的Orders工作表,我們在做實際的數據分析以前,想要先來了解自己的資料。第一眼望去,總共有9994筆內容(+1筆欄位名),第一個問題來了,資料筆數會等於總訂單數嗎?更精確地說,到底有多少不重複的訂單?
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
如何在SQL實踐中EXCEL 常用功能 篩選 和 擷取文字串?需要熟練地使用分組(GROUP BY) 與 排序 (ORDER BY) 以及SUBSTRING_INDEX函數!
Thumbnail
本文探討了在使用 pandas 處理資料時應注意的幾個關鍵點,以及如何減少因資料型態問題而產生的錯誤,確保資料的原始意義得以保留。主要包括Pandas 資料處理深入解析,尋找CSV之外的數據儲存方案,以及優化資料處理策略。
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
題目敘述 題目會給定一個整數陣列nums,原本裡面包含有整數1到n,但是中間不小心出了差錯,導致有一個數字消失了,而另一個數字重複了。 請找出重複的數字以及消失的數字,並且 以陣列的形式[重複的數字, 消失的數字]返回這兩個數字。 例如: [1,3,3,4] 消失的數字是2,重複的數字是
Thumbnail
題目敘述 題目會給定一個pandas DataFrame作為輸入,要求我們以原有的資料表email欄位為比較基準,刪除重複的列 data rows,只保留最早第一次出現的。 題目的原文敘述 Example 1: Input: +-------------+---------+--------
Thumbnail
Sequential Feature Selection(SFS) 用中文來解釋為,逐一特徵選取訓練,找出最重要的特徵,以提高模型的性能和效率 SFS 的一些用途包括: 維度縮減: 在高維度數據中,許多特徵可能是多餘或不重要的,使用 SFS 可以找到最能代表數據的特徵,從而減少計算和記憶體需求