資料分析前最重要的事:決定「分析單位(unit of analysis)」

更新於 2023/07/05閱讀時間約 5 分鐘
「分析單位」近似詞是「歸戶方式」或是「資料顆粒度」,是資料分析執行前,最需要確認的項目;決定了「分析單位」等同於決定分析結果數據呈現方式、解讀和應用方法。讓我們一起了解「分析單位」到底是什麼?什麼會決定分析單位?以及沒有弄清楚分析單位會有什麼影響?

內容

  • 定義
  • 如何決定分析單位
  • 誤用的話還好吧
  • 如何避免誤用分析單位
  • 結論
  • 最後

定義

根據Earl Babbie在社會科學研究方法的教科書中所定義,分析單位(unit of analysis)是指:
The what or whom being studied.
也就是說,「分析單位」指的就是「研究的對象」。
比方說,在學校教育中,我們想要知道不同的教育方式,對於學生成績的影響,那麼「一個個的學生」就是我們的分析單位;在企業管理中,想知道不同企業的成長潛能,這時的分析單位就是「一間間的公司」;又或者是,想建立模型預測不同地區在選舉時藍、綠的得票率,這時候的分析單位就可以是「一個個的村里」。
在資料分析或是資料倉儲(data warehouse)領域中,常見的近似詞是「歸戶方式」或是「資料顆粒度」。不過我偏好使用「分析單位」稱呼,因為他除了表示「單位」之外,同時也隱含著「分析標的」。

如何決定分析單位

「分析單位」的決定方式,取決於下列2種狀況:「研究或應用目的」和「可取得的資料最小單位」。
  1. 分析或應用目的
    依「分析或應用目的」決定是最常見方式。如同我在【定義】裡舉的例子,分析或應用目的會主導分析單位。
    在不同情境之下,我們分析的標的,可以是「一個個的人」,也可以是一群人所組成的「一間間公司」,甚至是由一個個區域所框定的地理區域等。而在學術單位或是研究機構中,分析單位往往相對容易決定,因為在學術環境中,往往不須額外合併(join)其他資料,因此資料的分析單位相對固定,大致上在資料收集時就已經決定。
  2. 可取得的資料最小單位
    商業或實務應用場域上,則往往更受到個人資料保護,或其他的成本考量,而無法取得研究的極致小的分析單位。舉例來說,假設我想要知道住在「不同路段的平均房價和家戶所得之間的關係」,卻發現實務上無法取得各路段的家戶所得資料,且公開資料最細只至「村里」,此時「分析單位」只能是「村里」,而原本的題目就會變成「不同村里的平均房價和家戶所得之間的關係」。
    也就是說,能否取得足夠細緻的資料,會反過來影響分析單位和研究目的。

誤用的話還好吧

大家都有銀行帳戶吧?舉幾個和銀行有關的例子,說明誤用的情況。你知道哪邊有問題嗎?
想知道各家銀行往來「人數多寡」,發現部分銀行的人數達1,900萬,也就是8成台灣人和該銀行有往來。
其統計的是不同銀行的有效帳戶數,但因為同一個人在同間銀行可能有多個帳戶,或同時有台幣帳戶和外幣帳戶,所以呈現的數字不是「往來人數」,而是「有效帳戶數」。
銀行想建立風險預測模型,輔助預判借款人無法償還款項的風險高低。先是整理借款人資料,同時考慮具有風險意涵的歷史交易紀錄,逐筆合併。
但模型無法完成訓練,原因是借款人的資料竟達數億筆,即便完成也可以預期模型的預測能力有限。原因在於合併歷史交易紀錄時,資料的分析單位已不再是「每個借款人」,而是「每個借款人的每次交易紀錄」。

如何避免誤用分析單位

要避免分析單位的誤用,可以在3個不同面向著力,包含「制度面」、「資料面」和「個性面」
  • 制度面
    在制度上設定資料檢核點,並由不同分析人員或主管確認資料輸入和輸出數量一致。
  • 資料面
    在資料合併時,明定資料之間的關聯鍵值,當資料為的單位不同時,如較細緻的歷史交易紀錄(同個貸款人有比較多筆交易紀錄)應整合(aggregate)至貸款人的單位,例如計算貸款人的交易頻率、欠款金額、違約比例等,再行合併至借款人資料,而非歷史交易紀錄直接合併借款人資料。
  • 個性面
    吹毛求疵、龜毛、完美主義的分析師個性,會是產出品質的保證之一。因為大多數資料分析的結果,除非逐步核對或是前例的數字可循,否則很難發現箇中錯誤,這時候分析人員的正直是最後一道的防線。

結論

資料分析的學習過程中,「分析單位」極少被提及,原因在於多數練習題不會牽涉到合併資料,或是應用其他外部資料,加上分析和應用標的都已經被決定,所以被忽略。而分析單位往往是透過和使用者或客戶需求訪談,了解業務內容後才能徹底掌握的。因此
能夠充分掌握分析單位的資料分析人員,除了是對自我專業價值的重視,也是對資料掌握度的呈現,更是產出品質的保證。
本文的3個結論:
  1. 決定分析單位等同於決定分析或應用標的。
  2. 時時確保分析單位的一致性,特別在資料經過合併後,應再次確認。
  3. 分析單位的誤用可以透過不同面向降低發生的可能性。

最後

你了解「分析單位」的重要性了嗎?有沒有遇過「分析單位」不一致的狀況呢?對於我的內容有什麼建議,都歡迎留言跟我分享。
avatar-img
28會員
19內容數
和大家一起看見台灣的資料,包含人口、經濟、社會等相關議題。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
上一篇介紹了 Python 中的條件判斷,方法是透過了自動程式條件式判斷,以不同劇本的方式來執行動作。然而實際情況下,我們還常會遇到一種問題,就是必須重複執行某些相同的步驟,而迴圈(loop)的設計就是為了解決此「重複執行」的一種控制結構,讓我們可以在條件符合的情況下利用迴圈執行資料的輸入、處理與輸
Thumbnail
經歷過第一次的課程內容後,我們已經初步理解到Python的基本運算功能,接下來就要開始進入到高階語言都有的程式控制邏輯,先來個小小開胃菜—條件判斷。 if敘述 直接來帶範例會比較清楚理解: 第一次我們輸入國文分數為50分,由於數值50並沒有大於60,第一個if敘述的condition條件判斷就會是F
Thumbnail
首先,聊聊我與SimilarWeb的不解之緣😊,以前在媒體界擔任產品經理時,老闆最愛問下屬的一件事,別人家競品的網站狀況如何?流量如何?廣告策略有哪些?可是坦白說,沒有認識到別家公司內部員工的話,誰有辦法清楚知道,這時只能想些折衷的辦法,去翻翻網路資訊,或請教一些數位界的前輩,了解是否有哪些第三方
Thumbnail
前幾年因為工作方面的需求,花了一些時間自學了Python,進行網站爬蟲與資料分析,但近期由於職務的轉換,Python的實作應用機會減少了許多,對於code撰寫的敏感度也因此降低不少,趁著上個月看到勞動力職能發展協會官網有一門新課程「Python大數據資料探勘分析應用班」正在線上招生,想說既然政府與公
Thumbnail
最近在公司跟資料科學家一起討論了產品推薦機制的運作邏輯,才開始理解了甚麼是關聯分析(Associative Analysis),覺得挺有趣的,想說把學習心得記錄下來,藉此機會跟大家分享。 接著下來,我們就以「樂屋網」產品的使用者行為資料庫,做為假設的範例,進行簡單的解釋說明。 條件機率與貝氏定理
Thumbnail
紐約時報曾經於2018年12月製作過「How Does Your State Make Electricity?」專題,探討從2001-2017年美國各州電力系統結構變化。本篇目的旨在仿照紐約時報的做法,也製作一個屬於台灣的電力結構轉變資訊圖表。
Thumbnail
史隆運動分析論壇(MIT SSAC),是北美運動數據研究圈中最重要的交流盛會,許多的運動數據分析人才與業界相關公司,都是透過此論壇所發跡。以下為個人對SSAC 22座談會內容的彙整。
Thumbnail
這一次在高雄上課,租用昂貴的電腦教室,只是很可惜,這家巨匠居然沒有安裝office,只有開放原始碼的試算表,有一點卡卡的,影響我的教學。 趁學員陸續到期,趕緊教他們下載資料;下載資料對我來說雖然簡單,但對於這一批學員來說,卻可能是第一次操作;還好很多學員立即學會,也立馬變身為種子教官,教會旁邊的學員
Thumbnail
EXCEL應該是最多朋友會使用的工具,因為如果能善用EXCEL來分析手邊的股價資訊,必然能有極大的幫助。 雖然說現在市面上有非常多既有的既定工具,但資料在自己手上,分析方法由自己決定,長期來說還是比較好。 今天來講一個簡單的敘述統計...
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
上一篇介紹了 Python 中的條件判斷,方法是透過了自動程式條件式判斷,以不同劇本的方式來執行動作。然而實際情況下,我們還常會遇到一種問題,就是必須重複執行某些相同的步驟,而迴圈(loop)的設計就是為了解決此「重複執行」的一種控制結構,讓我們可以在條件符合的情況下利用迴圈執行資料的輸入、處理與輸
Thumbnail
經歷過第一次的課程內容後,我們已經初步理解到Python的基本運算功能,接下來就要開始進入到高階語言都有的程式控制邏輯,先來個小小開胃菜—條件判斷。 if敘述 直接來帶範例會比較清楚理解: 第一次我們輸入國文分數為50分,由於數值50並沒有大於60,第一個if敘述的condition條件判斷就會是F
Thumbnail
首先,聊聊我與SimilarWeb的不解之緣😊,以前在媒體界擔任產品經理時,老闆最愛問下屬的一件事,別人家競品的網站狀況如何?流量如何?廣告策略有哪些?可是坦白說,沒有認識到別家公司內部員工的話,誰有辦法清楚知道,這時只能想些折衷的辦法,去翻翻網路資訊,或請教一些數位界的前輩,了解是否有哪些第三方
Thumbnail
前幾年因為工作方面的需求,花了一些時間自學了Python,進行網站爬蟲與資料分析,但近期由於職務的轉換,Python的實作應用機會減少了許多,對於code撰寫的敏感度也因此降低不少,趁著上個月看到勞動力職能發展協會官網有一門新課程「Python大數據資料探勘分析應用班」正在線上招生,想說既然政府與公
Thumbnail
最近在公司跟資料科學家一起討論了產品推薦機制的運作邏輯,才開始理解了甚麼是關聯分析(Associative Analysis),覺得挺有趣的,想說把學習心得記錄下來,藉此機會跟大家分享。 接著下來,我們就以「樂屋網」產品的使用者行為資料庫,做為假設的範例,進行簡單的解釋說明。 條件機率與貝氏定理
Thumbnail
紐約時報曾經於2018年12月製作過「How Does Your State Make Electricity?」專題,探討從2001-2017年美國各州電力系統結構變化。本篇目的旨在仿照紐約時報的做法,也製作一個屬於台灣的電力結構轉變資訊圖表。
Thumbnail
史隆運動分析論壇(MIT SSAC),是北美運動數據研究圈中最重要的交流盛會,許多的運動數據分析人才與業界相關公司,都是透過此論壇所發跡。以下為個人對SSAC 22座談會內容的彙整。
Thumbnail
這一次在高雄上課,租用昂貴的電腦教室,只是很可惜,這家巨匠居然沒有安裝office,只有開放原始碼的試算表,有一點卡卡的,影響我的教學。 趁學員陸續到期,趕緊教他們下載資料;下載資料對我來說雖然簡單,但對於這一批學員來說,卻可能是第一次操作;還好很多學員立即學會,也立馬變身為種子教官,教會旁邊的學員
Thumbnail
EXCEL應該是最多朋友會使用的工具,因為如果能善用EXCEL來分析手邊的股價資訊,必然能有極大的幫助。 雖然說現在市面上有非常多既有的既定工具,但資料在自己手上,分析方法由自己決定,長期來說還是比較好。 今天來講一個簡單的敘述統計...