資料分析前最重要的事:決定「分析單位(unit of analysis)」

閱讀時間約 5 分鐘
「分析單位」近似詞是「歸戶方式」或是「資料顆粒度」,是資料分析執行前,最需要確認的項目;決定了「分析單位」等同於決定分析結果數據呈現方式、解讀和應用方法。讓我們一起了解「分析單位」到底是什麼?什麼會決定分析單位?以及沒有弄清楚分析單位會有什麼影響?

內容

  • 定義
  • 如何決定分析單位
  • 誤用的話還好吧
  • 如何避免誤用分析單位
  • 結論
  • 最後

定義

根據Earl Babbie在社會科學研究方法的教科書中所定義,分析單位(unit of analysis)是指:
The what or whom being studied.
也就是說,「分析單位」指的就是「研究的對象」。
比方說,在學校教育中,我們想要知道不同的教育方式,對於學生成績的影響,那麼「一個個的學生」就是我們的分析單位;在企業管理中,想知道不同企業的成長潛能,這時的分析單位就是「一間間的公司」;又或者是,想建立模型預測不同地區在選舉時藍、綠的得票率,這時候的分析單位就可以是「一個個的村里」。
在資料分析或是資料倉儲(data warehouse)領域中,常見的近似詞是「歸戶方式」或是「資料顆粒度」。不過我偏好使用「分析單位」稱呼,因為他除了表示「單位」之外,同時也隱含著「分析標的」。

如何決定分析單位

「分析單位」的決定方式,取決於下列2種狀況:「研究或應用目的」和「可取得的資料最小單位」。
  1. 分析或應用目的
    依「分析或應用目的」決定是最常見方式。如同我在【定義】裡舉的例子,分析或應用目的會主導分析單位。
    在不同情境之下,我們分析的標的,可以是「一個個的人」,也可以是一群人所組成的「一間間公司」,甚至是由一個個區域所框定的地理區域等。而在學術單位或是研究機構中,分析單位往往相對容易決定,因為在學術環境中,往往不須額外合併(join)其他資料,因此資料的分析單位相對固定,大致上在資料收集時就已經決定。
  2. 可取得的資料最小單位
    商業或實務應用場域上,則往往更受到個人資料保護,或其他的成本考量,而無法取得研究的極致小的分析單位。舉例來說,假設我想要知道住在「不同路段的平均房價和家戶所得之間的關係」,卻發現實務上無法取得各路段的家戶所得資料,且公開資料最細只至「村里」,此時「分析單位」只能是「村里」,而原本的題目就會變成「不同村里的平均房價和家戶所得之間的關係」。
    也就是說,能否取得足夠細緻的資料,會反過來影響分析單位和研究目的。

誤用的話還好吧

大家都有銀行帳戶吧?舉幾個和銀行有關的例子,說明誤用的情況。你知道哪邊有問題嗎?
想知道各家銀行往來「人數多寡」,發現部分銀行的人數達1,900萬,也就是8成台灣人和該銀行有往來。
其統計的是不同銀行的有效帳戶數,但因為同一個人在同間銀行可能有多個帳戶,或同時有台幣帳戶和外幣帳戶,所以呈現的數字不是「往來人數」,而是「有效帳戶數」。
銀行想建立風險預測模型,輔助預判借款人無法償還款項的風險高低。先是整理借款人資料,同時考慮具有風險意涵的歷史交易紀錄,逐筆合併。
但模型無法完成訓練,原因是借款人的資料竟達數億筆,即便完成也可以預期模型的預測能力有限。原因在於合併歷史交易紀錄時,資料的分析單位已不再是「每個借款人」,而是「每個借款人的每次交易紀錄」。

如何避免誤用分析單位

要避免分析單位的誤用,可以在3個不同面向著力,包含「制度面」、「資料面」和「個性面」
  • 制度面
    在制度上設定資料檢核點,並由不同分析人員或主管確認資料輸入和輸出數量一致。
  • 資料面
    在資料合併時,明定資料之間的關聯鍵值,當資料為的單位不同時,如較細緻的歷史交易紀錄(同個貸款人有比較多筆交易紀錄)應整合(aggregate)至貸款人的單位,例如計算貸款人的交易頻率、欠款金額、違約比例等,再行合併至借款人資料,而非歷史交易紀錄直接合併借款人資料。
  • 個性面
    吹毛求疵、龜毛、完美主義的分析師個性,會是產出品質的保證之一。因為大多數資料分析的結果,除非逐步核對或是前例的數字可循,否則很難發現箇中錯誤,這時候分析人員的正直是最後一道的防線。

結論

資料分析的學習過程中,「分析單位」極少被提及,原因在於多數練習題不會牽涉到合併資料,或是應用其他外部資料,加上分析和應用標的都已經被決定,所以被忽略。而分析單位往往是透過和使用者或客戶需求訪談,了解業務內容後才能徹底掌握的。因此
能夠充分掌握分析單位的資料分析人員,除了是對自我專業價值的重視,也是對資料掌握度的呈現,更是產出品質的保證。
本文的3個結論:
  1. 決定分析單位等同於決定分析或應用標的。
  2. 時時確保分析單位的一致性,特別在資料經過合併後,應再次確認。
  3. 分析單位的誤用可以透過不同面向降低發生的可能性。

最後

你了解「分析單位」的重要性了嗎?有沒有遇過「分析單位」不一致的狀況呢?對於我的內容有什麼建議,都歡迎留言跟我分享。
28會員
19內容數
和大家一起看見台灣的資料,包含人口、經濟、社會等相關議題。
留言0
查看全部
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
上一篇介紹了 Python 中的條件判斷,方法是透過了自動程式條件式判斷,以不同劇本的方式來執行動作。然而實際情況下,我們還常會遇到一種問題,就是必須重複執行某些相同的步驟,而迴圈(loop)的設計就是為了解決此「重複執行」的一種控制結構,讓我們可以在條件符合的情況下利用迴圈執行資料的輸入、處理與輸
Thumbnail
經歷過第一次的課程內容後,我們已經初步理解到Python的基本運算功能,接下來就要開始進入到高階語言都有的程式控制邏輯,先來個小小開胃菜—條件判斷。 if敘述 直接來帶範例會比較清楚理解: 第一次我們輸入國文分數為50分,由於數值50並沒有大於60,第一個if敘述的condition條件判斷就會是F
Thumbnail
首先,聊聊我與SimilarWeb的不解之緣😊,以前在媒體界擔任產品經理時,老闆最愛問下屬的一件事,別人家競品的網站狀況如何?流量如何?廣告策略有哪些?可是坦白說,沒有認識到別家公司內部員工的話,誰有辦法清楚知道,這時只能想些折衷的辦法,去翻翻網路資訊,或請教一些數位界的前輩,了解是否有哪些第三方
Thumbnail
前幾年因為工作方面的需求,花了一些時間自學了Python,進行網站爬蟲與資料分析,但近期由於職務的轉換,Python的實作應用機會減少了許多,對於code撰寫的敏感度也因此降低不少,趁著上個月看到勞動力職能發展協會官網有一門新課程「Python大數據資料探勘分析應用班」正在線上招生,想說既然政府與公
Thumbnail
最近在公司跟資料科學家一起討論了產品推薦機制的運作邏輯,才開始理解了甚麼是關聯分析(Associative Analysis),覺得挺有趣的,想說把學習心得記錄下來,藉此機會跟大家分享。 接著下來,我們就以「樂屋網」產品的使用者行為資料庫,做為假設的範例,進行簡單的解釋說明。 條件機率與貝氏定理
Thumbnail
紐約時報曾經於2018年12月製作過「How Does Your State Make Electricity?」專題,探討從2001-2017年美國各州電力系統結構變化。本篇目的旨在仿照紐約時報的做法,也製作一個屬於台灣的電力結構轉變資訊圖表。
Thumbnail
史隆運動分析論壇(MIT SSAC),是北美運動數據研究圈中最重要的交流盛會,許多的運動數據分析人才與業界相關公司,都是透過此論壇所發跡。以下為個人對SSAC 22座談會內容的彙整。
Thumbnail
這一次在高雄上課,租用昂貴的電腦教室,只是很可惜,這家巨匠居然沒有安裝office,只有開放原始碼的試算表,有一點卡卡的,影響我的教學。 趁學員陸續到期,趕緊教他們下載資料;下載資料對我來說雖然簡單,但對於這一批學員來說,卻可能是第一次操作;還好很多學員立即學會,也立馬變身為種子教官,教會旁邊的學員
Thumbnail
EXCEL應該是最多朋友會使用的工具,因為如果能善用EXCEL來分析手邊的股價資訊,必然能有極大的幫助。 雖然說現在市面上有非常多既有的既定工具,但資料在自己手上,分析方法由自己決定,長期來說還是比較好。 今天來講一個簡單的敘述統計...
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
上一篇介紹了 Python 中的條件判斷,方法是透過了自動程式條件式判斷,以不同劇本的方式來執行動作。然而實際情況下,我們還常會遇到一種問題,就是必須重複執行某些相同的步驟,而迴圈(loop)的設計就是為了解決此「重複執行」的一種控制結構,讓我們可以在條件符合的情況下利用迴圈執行資料的輸入、處理與輸
Thumbnail
經歷過第一次的課程內容後,我們已經初步理解到Python的基本運算功能,接下來就要開始進入到高階語言都有的程式控制邏輯,先來個小小開胃菜—條件判斷。 if敘述 直接來帶範例會比較清楚理解: 第一次我們輸入國文分數為50分,由於數值50並沒有大於60,第一個if敘述的condition條件判斷就會是F
Thumbnail
首先,聊聊我與SimilarWeb的不解之緣😊,以前在媒體界擔任產品經理時,老闆最愛問下屬的一件事,別人家競品的網站狀況如何?流量如何?廣告策略有哪些?可是坦白說,沒有認識到別家公司內部員工的話,誰有辦法清楚知道,這時只能想些折衷的辦法,去翻翻網路資訊,或請教一些數位界的前輩,了解是否有哪些第三方
Thumbnail
前幾年因為工作方面的需求,花了一些時間自學了Python,進行網站爬蟲與資料分析,但近期由於職務的轉換,Python的實作應用機會減少了許多,對於code撰寫的敏感度也因此降低不少,趁著上個月看到勞動力職能發展協會官網有一門新課程「Python大數據資料探勘分析應用班」正在線上招生,想說既然政府與公
Thumbnail
最近在公司跟資料科學家一起討論了產品推薦機制的運作邏輯,才開始理解了甚麼是關聯分析(Associative Analysis),覺得挺有趣的,想說把學習心得記錄下來,藉此機會跟大家分享。 接著下來,我們就以「樂屋網」產品的使用者行為資料庫,做為假設的範例,進行簡單的解釋說明。 條件機率與貝氏定理
Thumbnail
紐約時報曾經於2018年12月製作過「How Does Your State Make Electricity?」專題,探討從2001-2017年美國各州電力系統結構變化。本篇目的旨在仿照紐約時報的做法,也製作一個屬於台灣的電力結構轉變資訊圖表。
Thumbnail
史隆運動分析論壇(MIT SSAC),是北美運動數據研究圈中最重要的交流盛會,許多的運動數據分析人才與業界相關公司,都是透過此論壇所發跡。以下為個人對SSAC 22座談會內容的彙整。
Thumbnail
這一次在高雄上課,租用昂貴的電腦教室,只是很可惜,這家巨匠居然沒有安裝office,只有開放原始碼的試算表,有一點卡卡的,影響我的教學。 趁學員陸續到期,趕緊教他們下載資料;下載資料對我來說雖然簡單,但對於這一批學員來說,卻可能是第一次操作;還好很多學員立即學會,也立馬變身為種子教官,教會旁邊的學員
Thumbnail
EXCEL應該是最多朋友會使用的工具,因為如果能善用EXCEL來分析手邊的股價資訊,必然能有極大的幫助。 雖然說現在市面上有非常多既有的既定工具,但資料在自己手上,分析方法由自己決定,長期來說還是比較好。 今天來講一個簡單的敘述統計...