資料分析前最重要的事:決定「分析單位(unit of analysis)」

更新於 發佈於 閱讀時間約 5 分鐘

「分析單位」近似詞是「歸戶方式」或是「資料顆粒度」,是資料分析執行前,最需要確認的項目;決定了「分析單位」等同於決定分析結果數據呈現方式、解讀和應用方法。讓我們一起了解「分析單位」到底是什麼?什麼會決定分析單位?以及沒有弄清楚分析單位會有什麼影響?

內容

  • 定義
  • 如何決定分析單位
  • 誤用的話還好吧
  • 如何避免誤用分析單位
  • 結論
  • 最後

定義

根據Earl Babbie在社會科學研究方法的教科書中所定義,分析單位(unit of analysis)是指:

The what or whom being studied.

也就是說,「分析單位」指的就是「研究的對象」。

比方說,在學校教育中,我們想要知道不同的教育方式,對於學生成績的影響,那麼「一個個的學生」就是我們的分析單位;在企業管理中,想知道不同企業的成長潛能,這時的分析單位就是「一間間的公司」;又或者是,想建立模型預測不同地區在選舉時藍、綠的得票率,這時候的分析單位就可以是「一個個的村里」。

在資料分析或是資料倉儲(data warehouse)領域中,常見的近似詞是「歸戶方式」或是「資料顆粒度」。不過我偏好使用「分析單位」稱呼,因為他除了表示「單位」之外,同時也隱含著「分析標的」。


raw-image


如何決定分析單位

「分析單位」的決定方式,取決於下列2種狀況:「研究或應用目的」和「可取得的資料最小單位」。

  1. 分析或應用目的
    依「分析或應用目的」決定是最常見方式。如同我在【定義】裡舉的例子,分析或應用目的會主導分析單位。
    在不同情境之下,我們分析的標的,可以是「一個個的人」,也可以是一群人所組成的「一間間公司」,甚至是由一個個區域所框定的地理區域等。而在學術單位或是研究機構中,分析單位往往相對容易決定,因為在學術環境中,往往不須額外合併(join)其他資料,因此資料的分析單位相對固定,大致上在資料收集時就已經決定。
  2. 可取得的資料最小單位
    商業或實務應用場域上,則往往更受到個人資料保護,或其他的成本考量,而無法取得研究的極致小的分析單位。舉例來說,假設我想要知道住在「不同路段的平均房價和家戶所得之間的關係」,卻發現實務上無法取得各路段的家戶所得資料,且公開資料最細只至「村里」,此時「分析單位」只能是「村里」,而原本的題目就會變成「不同村里的平均房價和家戶所得之間的關係」。
    也就是說,能否取得足夠細緻的資料,會反過來影響分析單位和研究目的。

誤用的話還好吧

大家都有銀行帳戶吧?舉幾個和銀行有關的例子,說明誤用的情況。你知道哪邊有問題嗎?

想知道各家銀行往來「人數多寡」,發現部分銀行的人數達1,900萬,也就是8成台灣人和該銀行有往來。

其統計的是不同銀行的有效帳戶數,但因為同一個人在同間銀行可能有多個帳戶,或同時有台幣帳戶和外幣帳戶,所以呈現的數字不是「往來人數」,而是「有效帳戶數」。

銀行想建立風險預測模型,輔助預判借款人無法償還款項的風險高低。先是整理借款人資料,同時考慮具有風險意涵的歷史交易紀錄,逐筆合併。

但模型無法完成訓練,原因是借款人的資料竟達數億筆,即便完成也可以預期模型的預測能力有限。原因在於合併歷史交易紀錄時,資料的分析單位已不再是「每個借款人」,而是「每個借款人的每次交易紀錄」。

如何避免誤用分析單位

要避免分析單位的誤用,可以在3個不同面向著力,包含「制度面」、「資料面」和「個性面」

  • 制度面
    在制度上設定資料檢核點,並由不同分析人員或主管確認資料輸入和輸出數量一致。
  • 資料面
    在資料合併時,明定資料之間的關聯鍵值,當資料為的單位不同時,如較細緻的歷史交易紀錄(同個貸款人有比較多筆交易紀錄)應整合(aggregate)至貸款人的單位,例如計算貸款人的交易頻率、欠款金額、違約比例等,再行合併至借款人資料,而非歷史交易紀錄直接合併借款人資料。
  • 個性面
    吹毛求疵、龜毛、完美主義的分析師個性,會是產出品質的保證之一。因為大多數資料分析的結果,除非逐步核對或是前例的數字可循,否則很難發現箇中錯誤,這時候分析人員的正直是最後一道的防線。

結論

資料分析的學習過程中,「分析單位」極少被提及,原因在於多數練習題不會牽涉到合併資料,或是應用其他外部資料,加上分析和應用標的都已經被決定,所以被忽略。而分析單位往往是透過和使用者或客戶需求訪談,了解業務內容後才能徹底掌握的。因此

能夠充分掌握分析單位的資料分析人員,除了是對自我專業價值的重視,也是對資料掌握度的呈現,更是產出品質的保證。

本文的3個結論:

  1. 決定分析單位等同於決定分析或應用標的。
  2. 時時確保分析單位的一致性,特別在資料經過合併後,應再次確認。
  3. 分析單位的誤用可以透過不同面向降低發生的可能性。

最後

你了解「分析單位」的重要性了嗎?有沒有遇過「分析單位」不一致的狀況呢?對於我的內容有什麼建議,都歡迎留言跟我分享。





留言
avatar-img
留言分享你的想法!
avatar-img
李政旺的沙龍
29會員
19內容數
和大家一起看見台灣的資料,包含人口、經濟、社會等相關議題。
李政旺的沙龍的其他內容
2023/07/23
模型上線前的評估的嚴謹與否,攸關上線後模型的表現。你知道模型評估需要注意哪些細節?在評估過程的嚴謹性又可以如何分級呢?一起來看看吧!
Thumbnail
2023/07/23
模型上線前的評估的嚴謹與否,攸關上線後模型的表現。你知道模型評估需要注意哪些細節?在評估過程的嚴謹性又可以如何分級呢?一起來看看吧!
Thumbnail
2023/07/22
資料分析就像廚師料理一樣,但你知道可以分成哪9大流程嗎?一起看看資料分析流程和廚師料理有多像!
Thumbnail
2023/07/22
資料分析就像廚師料理一樣,但你知道可以分成哪9大流程嗎?一起看看資料分析流程和廚師料理有多像!
Thumbnail
2023/07/22
資料分析三個主要的目的分別是探索性、解釋性及預測性。看看他們在方法及複雜度上有什麼差異,以及適用的情境。
Thumbnail
2023/07/22
資料分析三個主要的目的分別是探索性、解釋性及預測性。看看他們在方法及複雜度上有什麼差異,以及適用的情境。
Thumbnail
看更多
你可能也想看
Thumbnail
  推論統計應該是讓很多人苦惱過的主題,這篇文的目標就是回答「到底推論統計是什麼?」這個問題。
Thumbnail
  推論統計應該是讓很多人苦惱過的主題,這篇文的目標就是回答「到底推論統計是什麼?」這個問題。
Thumbnail
決定「分析單位」是資料分析執行前,最需要確認的項目;決定了「分析單位」等同於決定分析結果數據呈現方式、解讀和應用方法。讓我們一起了解「分析單位」到底是什麼?什麼會決定分析單位?以及沒有弄清楚分析單位會有什麼影響?
Thumbnail
決定「分析單位」是資料分析執行前,最需要確認的項目;決定了「分析單位」等同於決定分析結果數據呈現方式、解讀和應用方法。讓我們一起了解「分析單位」到底是什麼?什麼會決定分析單位?以及沒有弄清楚分析單位會有什麼影響?
Thumbnail
  在跑統計前的二三事─量化研究常見迷思 當中提到了一些量化研究的常見迷思,這篇想要簡單提一下跟統計有關的方法學子領域。   為什麼要提這個呢?因為有時候看起來像是統計的問題,其實在統計學裡面不一定能找到答案。如果不知道這類型的問題屬於哪個領域,就會連怎麼找資料都做不到。
Thumbnail
  在跑統計前的二三事─量化研究常見迷思 當中提到了一些量化研究的常見迷思,這篇想要簡單提一下跟統計有關的方法學子領域。   為什麼要提這個呢?因為有時候看起來像是統計的問題,其實在統計學裡面不一定能找到答案。如果不知道這類型的問題屬於哪個領域,就會連怎麼找資料都做不到。
Thumbnail
多層次資料問題指的是在社會科學研究中,我們經常透過問卷以班級或學校為單位進行調查,此時收集到的資料很可能存在著多個層次的結構。這意味著我們觀察到的個體或單位被分類或分群到不同的層次中。本文將簡介此用傳統統計分析多層次資料結構的問題和限制
Thumbnail
多層次資料問題指的是在社會科學研究中,我們經常透過問卷以班級或學校為單位進行調查,此時收集到的資料很可能存在著多個層次的結構。這意味著我們觀察到的個體或單位被分類或分群到不同的層次中。本文將簡介此用傳統統計分析多層次資料結構的問題和限制
Thumbnail
社會網路就是一組互相有所關聯的個體,個體可以很多或很少,關係也可以單一或是多重的。社會網路分析和傳統統計觀點有所不同,社會網絡分析專注在個體之間的關係;傳統統計往往關注於個體以及其特性。 以下將簡單介紹社會網路分析的概念
Thumbnail
社會網路就是一組互相有所關聯的個體,個體可以很多或很少,關係也可以單一或是多重的。社會網路分析和傳統統計觀點有所不同,社會網絡分析專注在個體之間的關係;傳統統計往往關注於個體以及其特性。 以下將簡單介紹社會網路分析的概念
Thumbnail
篩選特定觀察值有多種原因。下面是一些常見的原因:數據清理: 如果在數據錄入過程中出現錯誤,或者有些觀察值缺失,那麼篩選出這些數據可能會有助於數據清理;研究目標: 篩選特定觀察值可以幫助你更好地研究你感興趣的特定群體;數據分析: 篩選出特定觀察值可以幫助你限制分析範圍,從而更好地理解結果。
Thumbnail
篩選特定觀察值有多種原因。下面是一些常見的原因:數據清理: 如果在數據錄入過程中出現錯誤,或者有些觀察值缺失,那麼篩選出這些數據可能會有助於數據清理;研究目標: 篩選特定觀察值可以幫助你更好地研究你感興趣的特定群體;數據分析: 篩選出特定觀察值可以幫助你限制分析範圍,從而更好地理解結果。
Thumbnail
我們每天都會接觸到龐大的數據量,但多數人未必知道如何正確地解讀。在這本《一次看懂小數據》中講述了我們該如何解讀每天接觸到的資料,將複雜的問題變得更簡單和直觀?如何避免陷入面對數據常犯的錯誤與盲點?在這篇文章中,我歸納整理的三個重點。
Thumbnail
我們每天都會接觸到龐大的數據量,但多數人未必知道如何正確地解讀。在這本《一次看懂小數據》中講述了我們該如何解讀每天接觸到的資料,將複雜的問題變得更簡單和直觀?如何避免陷入面對數據常犯的錯誤與盲點?在這篇文章中,我歸納整理的三個重點。
Thumbnail
數據分析的好,人人都知道。可以改善用戶體驗、找到肉眼無法注意的機會點、尋找新的商機、可以讓資源花在刀口上等等的族繁不及備載,所以大家會努力想著要找到能數據分析的人、方法、設備,讓自己的公司能夠藉著數據分析殺出一條活路、或是開出一條別人看不見的賽道。
Thumbnail
數據分析的好,人人都知道。可以改善用戶體驗、找到肉眼無法注意的機會點、尋找新的商機、可以讓資源花在刀口上等等的族繁不及備載,所以大家會努力想著要找到能數據分析的人、方法、設備,讓自己的公司能夠藉著數據分析殺出一條活路、或是開出一條別人看不見的賽道。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News