資料分析前最重要的事:決定「分析單位(unit of analysis)」

更新於 發佈於 閱讀時間約 5 分鐘
「分析單位」近似詞是「歸戶方式」或是「資料顆粒度」,是資料分析執行前,最需要確認的項目;決定了「分析單位」等同於決定分析結果數據呈現方式、解讀和應用方法。讓我們一起了解「分析單位」到底是什麼?什麼會決定分析單位?以及沒有弄清楚分析單位會有什麼影響?

內容

  • 定義
  • 如何決定分析單位
  • 誤用的話還好吧
  • 如何避免誤用分析單位
  • 結論
  • 最後

定義

根據Earl Babbie在社會科學研究方法的教科書中所定義,分析單位(unit of analysis)是指:
The what or whom being studied.
也就是說,「分析單位」指的就是「研究的對象」。
比方說,在學校教育中,我們想要知道不同的教育方式,對於學生成績的影響,那麼「一個個的學生」就是我們的分析單位;在企業管理中,想知道不同企業的成長潛能,這時的分析單位就是「一間間的公司」;又或者是,想建立模型預測不同地區在選舉時藍、綠的得票率,這時候的分析單位就可以是「一個個的村里」。
在資料分析或是資料倉儲(data warehouse)領域中,常見的近似詞是「歸戶方式」或是「資料顆粒度」。不過我偏好使用「分析單位」稱呼,因為他除了表示「單位」之外,同時也隱含著「分析標的」。

如何決定分析單位

「分析單位」的決定方式,取決於下列2種狀況:「研究或應用目的」和「可取得的資料最小單位」。
  1. 分析或應用目的
    依「分析或應用目的」決定是最常見方式。如同我在【定義】裡舉的例子,分析或應用目的會主導分析單位。
    在不同情境之下,我們分析的標的,可以是「一個個的人」,也可以是一群人所組成的「一間間公司」,甚至是由一個個區域所框定的地理區域等。而在學術單位或是研究機構中,分析單位往往相對容易決定,因為在學術環境中,往往不須額外合併(join)其他資料,因此資料的分析單位相對固定,大致上在資料收集時就已經決定。
  2. 可取得的資料最小單位
    商業或實務應用場域上,則往往更受到個人資料保護,或其他的成本考量,而無法取得研究的極致小的分析單位。舉例來說,假設我想要知道住在「不同路段的平均房價和家戶所得之間的關係」,卻發現實務上無法取得各路段的家戶所得資料,且公開資料最細只至「村里」,此時「分析單位」只能是「村里」,而原本的題目就會變成「不同村里的平均房價和家戶所得之間的關係」。
    也就是說,能否取得足夠細緻的資料,會反過來影響分析單位和研究目的。

誤用的話還好吧

大家都有銀行帳戶吧?舉幾個和銀行有關的例子,說明誤用的情況。你知道哪邊有問題嗎?
想知道各家銀行往來「人數多寡」,發現部分銀行的人數達1,900萬,也就是8成台灣人和該銀行有往來。
其統計的是不同銀行的有效帳戶數,但因為同一個人在同間銀行可能有多個帳戶,或同時有台幣帳戶和外幣帳戶,所以呈現的數字不是「往來人數」,而是「有效帳戶數」。
銀行想建立風險預測模型,輔助預判借款人無法償還款項的風險高低。先是整理借款人資料,同時考慮具有風險意涵的歷史交易紀錄,逐筆合併。
但模型無法完成訓練,原因是借款人的資料竟達數億筆,即便完成也可以預期模型的預測能力有限。原因在於合併歷史交易紀錄時,資料的分析單位已不再是「每個借款人」,而是「每個借款人的每次交易紀錄」。

如何避免誤用分析單位

要避免分析單位的誤用,可以在3個不同面向著力,包含「制度面」、「資料面」和「個性面」
  • 制度面
    在制度上設定資料檢核點,並由不同分析人員或主管確認資料輸入和輸出數量一致。
  • 資料面
    在資料合併時,明定資料之間的關聯鍵值,當資料為的單位不同時,如較細緻的歷史交易紀錄(同個貸款人有比較多筆交易紀錄)應整合(aggregate)至貸款人的單位,例如計算貸款人的交易頻率、欠款金額、違約比例等,再行合併至借款人資料,而非歷史交易紀錄直接合併借款人資料。
  • 個性面
    吹毛求疵、龜毛、完美主義的分析師個性,會是產出品質的保證之一。因為大多數資料分析的結果,除非逐步核對或是前例的數字可循,否則很難發現箇中錯誤,這時候分析人員的正直是最後一道的防線。

結論

資料分析的學習過程中,「分析單位」極少被提及,原因在於多數練習題不會牽涉到合併資料,或是應用其他外部資料,加上分析和應用標的都已經被決定,所以被忽略。而分析單位往往是透過和使用者或客戶需求訪談,了解業務內容後才能徹底掌握的。因此
能夠充分掌握分析單位的資料分析人員,除了是對自我專業價值的重視,也是對資料掌握度的呈現,更是產出品質的保證。
本文的3個結論:
  1. 決定分析單位等同於決定分析或應用標的。
  2. 時時確保分析單位的一致性,特別在資料經過合併後,應再次確認。
  3. 分析單位的誤用可以透過不同面向降低發生的可能性。

最後

你了解「分析單位」的重要性了嗎?有沒有遇過「分析單位」不一致的狀況呢?對於我的內容有什麼建議,都歡迎留言跟我分享。
此篇文章會顯示動態置底廣告
為什麼會看到廣告
avatar-img
28會員
19內容數
和大家一起看見台灣的資料,包含人口、經濟、社會等相關議題。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
從事長期投資或是價值投資,最重要的是個股的基本分析,不管是選股或是進出時機點的掌握,都離不開基本分析。而基本分析最關鍵的二件事,則是: 公司未來的營收展望及脈動分析; 公司的獲利結構分析和掌握。 當你對一家公司有深入的研究和瞭解,就能初步掌握它的營收脈動(當然一定有一些公司的資訊不透明,或者其
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
Thumbnail
作為一名擁有多年經驗的數據分析師,我深知數據分析的重要性及其對企業決策的影響。然而,數據分析並不是在任何情況下都適用。今天我想跟你聊的事情是:在數據量不足或缺乏流程優化目的時,進行數據分析的局限性。
Thumbnail
這篇文章分享了作者在參與預估專案時的思考脈絡和學習點,透過兩個具體的案例,探討了預估方法中重要的假設和挑戰。
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
說明區域式社會計量的目標、一般性運用原則、延伸與提醒、問句舉例。
Thumbnail
有別於試圖直接從數據中找出洞察,商業分析的精髓在於先思考 so what——從定義目標開始,做出商業決策的雛形後,才用數據去支持假說。這篇文章介紹 A/B 測試的技巧,以及摘櫻桃的應用,解說數據篩選的操作、摘櫻桃的好處,以及企業案例:數位轉型後的報社,亞馬遜CEO貝佐斯改造百年郵報。
在麥肯錫的邏輯裡,分析力是解決問題中最重要的因素,要正確分析問題,才有辦法從根本處置和防止復發。
Thumbnail
我們常把研究分成量化與質性兩種不同的方法(當然不止這兩種方法),其中量化分析主要在討論變數與變數的關係,而質性分析則在變數間在的互動過程與事件。因此通常在進行質性研究時,我們需要收集大量田野調查或訪談資料。做過訪談的人都知道,訪談後需要反覆的聆聽訪談錄音並將其轉化為訪談逐字稿,這是一個大工程,還好現
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
從事長期投資或是價值投資,最重要的是個股的基本分析,不管是選股或是進出時機點的掌握,都離不開基本分析。而基本分析最關鍵的二件事,則是: 公司未來的營收展望及脈動分析; 公司的獲利結構分析和掌握。 當你對一家公司有深入的研究和瞭解,就能初步掌握它的營收脈動(當然一定有一些公司的資訊不透明,或者其
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
Thumbnail
作為一名擁有多年經驗的數據分析師,我深知數據分析的重要性及其對企業決策的影響。然而,數據分析並不是在任何情況下都適用。今天我想跟你聊的事情是:在數據量不足或缺乏流程優化目的時,進行數據分析的局限性。
Thumbnail
這篇文章分享了作者在參與預估專案時的思考脈絡和學習點,透過兩個具體的案例,探討了預估方法中重要的假設和挑戰。
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
說明區域式社會計量的目標、一般性運用原則、延伸與提醒、問句舉例。
Thumbnail
有別於試圖直接從數據中找出洞察,商業分析的精髓在於先思考 so what——從定義目標開始,做出商業決策的雛形後,才用數據去支持假說。這篇文章介紹 A/B 測試的技巧,以及摘櫻桃的應用,解說數據篩選的操作、摘櫻桃的好處,以及企業案例:數位轉型後的報社,亞馬遜CEO貝佐斯改造百年郵報。
在麥肯錫的邏輯裡,分析力是解決問題中最重要的因素,要正確分析問題,才有辦法從根本處置和防止復發。
Thumbnail
我們常把研究分成量化與質性兩種不同的方法(當然不止這兩種方法),其中量化分析主要在討論變數與變數的關係,而質性分析則在變數間在的互動過程與事件。因此通常在進行質性研究時,我們需要收集大量田野調查或訪談資料。做過訪談的人都知道,訪談後需要反覆的聆聽訪談錄音並將其轉化為訪談逐字稿,這是一個大工程,還好現