「分析單位」近似詞是「歸戶方式」或是「資料顆粒度」,是資料分析執行前,最需要確認的項目;決定了「分析單位」等同於決定分析結果數據呈現方式、解讀和應用方法。讓我們一起了解「分析單位」到底是什麼?什麼會決定分析單位?以及沒有弄清楚分析單位會有什麼影響?
內容
- 定義
- 如何決定分析單位
- 誤用的話還好吧
- 如何避免誤用分析單位
- 結論
- 最後
定義
根據Earl Babbie在社會科學研究方法的教科書中所定義,分析單位(unit of analysis)是指:
The what or whom being studied.
也就是說,「分析單位」指的就是「研究的對象」。
比方說,在學校教育中,我們想要知道不同的教育方式,對於學生成績的影響,那麼「一個個的學生」就是我們的分析單位;在企業管理中,想知道不同企業的成長潛能,這時的分析單位就是「一間間的公司」;又或者是,想建立模型預測不同地區在選舉時藍、綠的得票率,這時候的分析單位就可以是「一個個的村里」。
在資料分析或是資料倉儲(data warehouse)領域中,常見的近似詞是「歸戶方式」或是「資料顆粒度」。不過我偏好使用「分析單位」稱呼,因為他除了表示「單位」之外,同時也隱含著「分析標的」。
如何決定分析單位
「分析單位」的決定方式,取決於下列2種狀況:「研究或應用目的」和「可取得的資料最小單位」。
- 分析或應用目的
依「分析或應用目的」決定是最常見方式。如同我在【定義】裡舉的例子,分析或應用目的會主導分析單位。
在不同情境之下,我們分析的標的,可以是「一個個的人」,也可以是一群人所組成的「一間間公司」,甚至是由一個個區域所框定的地理區域等。而在學術單位或是研究機構中,分析單位往往相對容易決定,因為在學術環境中,往往不須額外合併(join)其他資料,因此資料的分析單位相對固定,大致上在資料收集時就已經決定。
- 可取得的資料最小單位
商業或實務應用場域上,則往往更受到個人資料保護,或其他的成本考量,而無法取得研究的極致小的分析單位。舉例來說,假設我想要知道住在「不同路段的平均房價和家戶所得之間的關係」,卻發現實務上無法取得各路段的家戶所得資料,且公開資料最細只至「村里」,此時「分析單位」只能是「村里」,而原本的題目就會變成「不同村里的平均房價和家戶所得之間的關係」。
也就是說,能否取得足夠細緻的資料,會反過來影響分析單位和研究目的。
誤用的話還好吧
大家都有銀行帳戶吧?舉幾個和銀行有關的例子,說明誤用的情況。你知道哪邊有問題嗎?
想知道各家銀行往來「人數多寡」,發現部分銀行的人數達1,900萬,也就是8成台灣人和該銀行有往來。
其統計的是不同銀行的有效帳戶數,但因為同一個人在同間銀行可能有多個帳戶,或同時有台幣帳戶和外幣帳戶,所以呈現的數字不是「往來人數」,而是「有效帳戶數」。
銀行想建立風險預測模型,輔助預判借款人無法償還款項的風險高低。先是整理借款人資料,同時考慮具有風險意涵的歷史交易紀錄,逐筆合併。
但模型無法完成訓練,原因是借款人的資料竟達數億筆,即便完成也可以預期模型的預測能力有限。原因在於合併歷史交易紀錄時,資料的分析單位已不再是「每個借款人」,而是「每個借款人的每次交易紀錄」。
如何避免誤用分析單位
要避免分析單位的誤用,可以在3個不同面向著力,包含「制度面」、「資料面」和「個性面」
- 制度面
在制度上設定資料檢核點,並由不同分析人員或主管確認資料輸入和輸出數量一致。
- 資料面
在資料合併時,明定資料之間的關聯鍵值,當資料為的單位不同時,如較細緻的歷史交易紀錄(同個貸款人有比較多筆交易紀錄)應整合(aggregate)至貸款人的單位,例如計算貸款人的交易頻率、欠款金額、違約比例等,再行合併至借款人資料,而非歷史交易紀錄直接合併借款人資料。
- 個性面
吹毛求疵、龜毛、完美主義的分析師個性,會是產出品質的保證之一。因為大多數資料分析的結果,除非逐步核對或是前例的數字可循,否則很難發現箇中錯誤,這時候分析人員的正直是最後一道的防線。
結論
資料分析的學習過程中,「分析單位」極少被提及,原因在於多數練習題不會牽涉到合併資料,或是應用其他外部資料,加上分析和應用標的都已經被決定,所以被忽略。而分析單位往往是透過和使用者或客戶需求訪談,了解業務內容後才能徹底掌握的。因此
能夠充分掌握分析單位的資料分析人員,除了是對自我專業價值的重視,也是對資料掌握度的呈現,更是產出品質的保證。
本文的3個結論:
- 決定分析單位等同於決定分析或應用標的。
- 時時確保分析單位的一致性,特別在資料經過合併後,應再次確認。
- 分析單位的誤用可以透過不同面向降低發生的可能性。
最後
你了解「分析單位」的重要性了嗎?有沒有遇過「分析單位」不一致的狀況呢?對於我的內容有什麼建議,都歡迎留言跟我分享。