資料分析和廚師料理一樣!資料分析的 9 大流程

閱讀時間約 9 分鐘

資料分析的流程一開始,必須先確認目標或問題,並依此蒐集資料、清理、檢視資料單一變數分佈、多變數之間的關係,進一步針對目的執行對應分析或建立模型,並且呈現便於使用者理解分析結果,將相關內容部署到應用環境上,依據資料提供的洞見採取行動,同時定期監控分析結果的成效。而資料分析的目的,可以先參考資料分析的三大目的:探索、解釋及預測一文。

內容

  • 資料分析9大流程
  1. 確認目標或問題(今晚我想來點...)
  2. 蒐集資料(準備食材)
  3. 資料清理(清洗食材)
  4. 資料檢視(試試食材品質)
  5. 資料分析或模型建立(開始料理囉!)
  6. 結果呈現(美美的擺盤)
  7. 部署(上菜)
  8. 行動(嚼嚼嚼)
  9. 監控(滿意度回饋)
  • 結論
  • 最後

以下個階段都先從廚師角色出發,我們一起看看,資料分析流程和廚師料理究竟有多像!

資料分析9大流程

資料分析流程與精進循環

資料分析流程與精進循環


確認目標或問題(今晚我想來點...)

客人坐進你的餐廳,點了一份義大利麵。這時候身為廚師的我們,不會直接在廚房就開始料理,而是會細問要青醬、紅醬、白醬或是清炒?配料要用海鮮、肉醬或是蔬食。

我們知道義大利有很多種樣態,客人想要什麼,必須在開始的時候完整確認,也就是所謂的需求訪談。

在需求訪談的時候必須問出客人想要的究竟是什麼。需求訪談的詳實程度,決定客戶最終的滿意度

客人的需求如同靶心,沒有確認好需求目的,再頂級的廚師團隊(資料分析師們)、再傳說的廚具(電腦硬體)、精準的火侯刀工(演算法)和頂級食材(資料)都只會脫靶。

如同在資料分析前最重要的事:決定「分析單位(unit of analysis)」一文中所述,確認分析標的(確認「分析單位」),攸關客人是否心甘情願吃下這盤他心目中理想的義大利麵。


蒐集資料(準備食材)

食材的來源會依照我們提供不同的服務而異。如果我們是在自己開的餐廳裡料理,我們的餐廳可以有非常大的冰箱(我們自己擁有大量可重複應用的資料),天上飛的、海裡游的、地面爬的應有盡有,就看客人需不需要;有時是去客人家料理,食材就可能是在客人家的冰箱中(客戶自有資料),或是我們要從外面(開放資料)準備攜帶過去。甚至有時,客人慕名而來是因為我們可以自己種的有機食材,(生成資料、合成資料,如製作問卷發放回收、合成特定隱私資料等)都是可能的來源。

然而,重點仍在於蒐集或應用的資料,必須和客人想要的有關。例如客人想要的是番茄肉醬義大利麵,身為廚師的我們,就不會準備羅勒要打青醬。

當然,我們專業上會建議不要這樣,但當客人真的想要試試番茄肉醬義大利麵中加點青醬,只要食材備齊,客人接受,沒有我們覺得不行的道理!誰叫出錢的是老闆呢!

番茄肉醬義大利麵,有帕馬森起司和巴西里,但沒有青醬(應該吧)


資料清理(清洗食材)

蔬菜沒清洗乾淨就料理,吃土沒關係,但可以接受品嚐農藥嗎?

食材的清洗和食材的來源息息相關。如果資料越原始,清洗所需要耗費的時間越長。原始的意思代表資料在蒐集的過程中,沒有經過標準化,例如收到的食材是鮮蚵,還是帶殼的那種,處理完之後還有一堆垃圾(我說的是殼),這就像收到一堆資料,而且都是紙本,處理完之後還有一堆廢紙。

所以不幸的話,首先需要將客戶提供的資料數位化,並定義資料欄位的標準化格式以及合理的範圍區間,例如一顆正常的牡蠣落在5到15公克重,資料上發現有顆50公克重的牡蠣,那就要看和來源是否相符(看是不是賺到了一顆生蠔,要嘛丟掉不然吃掉);一般來說,會是多填了一個 0 的鮮蚵而已,必須修正資料,確保資料正確性

幸運的話,接觸到的食材已經過標準的清洗流程、和依規定的大小分切完成,並貼上標籤妥善儲存在冰箱中對應位置,也就是做好了資料倉儲管理(data warehousing)。不過,即便有了智慧化、標準化、倉儲化的冰箱,料理前還是需要依照客人的口味需要,進行微調;微調是否耗工,端看這個冰箱多麼智慧和標準。


資料檢視(試試食材品質)

廚師的味覺是與生俱來的,但是不同食材會受到季節、地域不同有所差異。確保所要完成的料理相對應的食材是否備齊、味道是否如同想像;料理前先對各項食材單獨嚐試過一輪、互相搭配測試口味也不為過。

料理前總要先確認冰箱裡有什麼,新不新鮮、食材之間是否可以互相搭配。資料分析也必須從理解資料開始,也就是探索性資料分析。這個階段的目的在於理解資料的分佈,和資料之間的關係,並且朝著分析目標的方向探索。例如透過次數分配表、直方圖、長條圖、圓餅圖等,了解各個變數的分佈狀況。進一步透過變數之間的相關性,初步掌握資料間彼此的關聯為何。


資料分析或模型建立(開始料理囉!)

廚師和傳說廚具(電腦硬體)、精準的火侯刀工(演算法)和頂級食材(資料)的相遇,就是現在了!

廚師最令人敬佩的地方,在於知道客人想要的佳餚後,就已經掌握需要的食材、烹飪方式和調味比例。烹飪方式和調味比例最吃廚師的功力,就像是資料分析或模型建立,也可以說就是演算方式。

這裡所謂的「演算方式」並非嚴格定義的演算法,可以是資料流程的設計、計算平均、比較差異、了解組成或結構等,也可以是透過應用既有的統計方法、機器學習方法建立解釋或預測模型,以滿足客人對於成品的想像。也就是說,廚師本身十八般武藝,蒸煮炒炸燉烤烹煎樣樣行;但這樣的能力並非與生俱來,而是在不同的客人需求以及各種食材間來回穿梭,一步一腳印踏出來的,最需要的是實務經驗的累積


結果呈現(美美的擺盤)

料理美味,要兼顧視覺享受。

好吃的料理要「色香味」俱全,「色」更是重中之重。料理終究需要出餐到客人面前享用,必定需要適當的擺盤。如果客人看到端上桌的是一盤慘白無修飾的義大利麵,鐵定滿臉問號,就算只是需要客人用叉子輕輕翻攪一下,就可以發現美味的番茄丁和肉醬,這樣的神祕感絕不能是資料分析的調味料

但這不是說把不能吃的東西弄得很好看就可以賣了,而是料理本身已經是美味可口的番茄肉醬義大利麵,就是出餐前再貼心一點,先鋪麵、淋肉醬、補番茄丁、灑巴西里、轉帕瑪森,讓客人一看就知道這是他要的番茄義大利肉醬麵;前面是不是沒有提過巴西里和帕瑪森?高於客人期待,超過100分。

資料分析的結果就像料理擺盤,需要藝術的美感,但最重要的是資訊的表達,必須簡單明瞭。重要的內容優先、明顯,結果呈現的數值單位定義清楚、一致,客戶不經說明就可以理解,就是最好的結果呈現方式


部署(上菜)

將客人點的餐點,放到他適合吃的地方。

料理完成之後,總要端上桌。而上菜的方式要看客人是到餐廳享用,或是點外送到客戶公司,甚至只點我們的料理當開胃,是要搭配他們的主食。

分析結果的呈現可以是透過網頁或是其他視覺化工具,提供客戶獨立網頁線上瀏覽,或是嵌入到客戶現有的網站中,甚至模型的應用是包裝成應用程式介面(API)提供客戶取用,更可以是將模型直接整合到客戶的業務流程當中,端看客戶的需求是使用方式。


行動(嚼嚼嚼)

餐點準時送達,不要客氣,開吃!

餐點送達之後,客人想要如何食用,或是搭配其他食物、飲料,都是客人的自由。不過廚師對於自己的料理,一定要說得出口的品嚐美味的方式。例如:應該先聞香氣,嚐一口肉醬味道,再和義大利麵拌勻,大口吸入麵條!

好的分析結果必須帶來可行動的方案,例如:分析結果發現連續數年的營業額下降,原因是青少年人口減少,那麼將產品銷售對象轉為成人或高齡者,就會是一個可行動的方案。而若是預測模型,則可以禦敵於先,像是預測結果是暑假第一個週末的爆量出遊人潮,那麼多聘僱一些臨時工讀生就是一各行動方案。


監控(滿意度回饋)

請問滿意今天的餐點嗎?

廚師的任務起點,不是在客人點餐開始,而是品嚐之後。知道每次的料理是否符合客人期待和口味,用完餐點的滿意度調查至關重要,可以讓我們知道,這次的餐點水準如何,有沒有可以再精進的地方。雖然餐點不如預期的主因,多數時候是缺少關鍵食材或是食材品質不佳。

資料分析的監控目的,在於隨時注意分析結果是否正常,以及掌握分析的品質或預測的準確度是否符合預期,更重要的是,其中隱含未來可作為精進的方向。監控的方式相當多元,包含服務是否正常?客戶依分析結果行動前的預期和結果之間的差異是否為正?預測結果和實際結果一致性是否高度重疊?資料或是模型的作動是否偏離預期?監控是資料分析的最後一里路,更是優化資料分析的起點!


結論

看到最後,幾乎可以明白資料分析流程和廚師料理過程幾乎一模一樣!本文透過比較容易想像的廚師料理的過程,說明資料分析的流程。並且強調了解客戶的需求和業務流程,是好的資料分析的關鍵;另外納入一般分析流程中較少提到的「部署」、「行動」和「監控」,完備資料分析從無到有,以及未來精進且不可或缺的完整程序。


最後

用「廚師做料理的流程」比喻資料分析的工作,大概是從資料分析這個詞被發明以來就已經存在。本文透過輕鬆的描述,和大家一起重溫或是了解資料分析的過程如何。目的是作為之後文章的引子,先有詳細的流程,後續各部分說明的時候,不至於瞎子摸象。

如果有更恰當的比喻、想法或是覺得有遺漏可以補充的地方,都歡迎留言和我分享,謝謝。


avatar-img
28會員
19內容數
和大家一起看見台灣的資料,包含人口、經濟、社會等相關議題。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
李政旺的沙龍 的其他內容
資料分析三個主要的目的分別是探索性、解釋性及預測性。看看他們在方法及複雜度上有什麼差異,以及適用的情境。
在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?
決定「分析單位」是資料分析執行前,最需要確認的項目;決定了「分析單位」等同於決定分析結果數據呈現方式、解讀和應用方法。讓我們一起了解「分析單位」到底是什麼?什麼會決定分析單位?以及沒有弄清楚分析單位會有什麼影響?
資料分析三個主要的目的分別是探索性、解釋性及預測性。看看他們在方法及複雜度上有什麼差異,以及適用的情境。
在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?
決定「分析單位」是資料分析執行前,最需要確認的項目;決定了「分析單位」等同於決定分析結果數據呈現方式、解讀和應用方法。讓我們一起了解「分析單位」到底是什麼?什麼會決定分析單位?以及沒有弄清楚分析單位會有什麼影響?
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
上一篇介紹了 Python 中的條件判斷,方法是透過了自動程式條件式判斷,以不同劇本的方式來執行動作。然而實際情況下,我們還常會遇到一種問題,就是必須重複執行某些相同的步驟,而迴圈(loop)的設計就是為了解決此「重複執行」的一種控制結構,讓我們可以在條件符合的情況下利用迴圈執行資料的輸入、處理與輸
Thumbnail
經歷過第一次的課程內容後,我們已經初步理解到Python的基本運算功能,接下來就要開始進入到高階語言都有的程式控制邏輯,先來個小小開胃菜—條件判斷。 if敘述 直接來帶範例會比較清楚理解: 第一次我們輸入國文分數為50分,由於數值50並沒有大於60,第一個if敘述的condition條件判斷就會是F
Thumbnail
首先,聊聊我與SimilarWeb的不解之緣😊,以前在媒體界擔任產品經理時,老闆最愛問下屬的一件事,別人家競品的網站狀況如何?流量如何?廣告策略有哪些?可是坦白說,沒有認識到別家公司內部員工的話,誰有辦法清楚知道,這時只能想些折衷的辦法,去翻翻網路資訊,或請教一些數位界的前輩,了解是否有哪些第三方
Thumbnail
前幾年因為工作方面的需求,花了一些時間自學了Python,進行網站爬蟲與資料分析,但近期由於職務的轉換,Python的實作應用機會減少了許多,對於code撰寫的敏感度也因此降低不少,趁著上個月看到勞動力職能發展協會官網有一門新課程「Python大數據資料探勘分析應用班」正在線上招生,想說既然政府與公
Thumbnail
最近在公司跟資料科學家一起討論了產品推薦機制的運作邏輯,才開始理解了甚麼是關聯分析(Associative Analysis),覺得挺有趣的,想說把學習心得記錄下來,藉此機會跟大家分享。 接著下來,我們就以「樂屋網」產品的使用者行為資料庫,做為假設的範例,進行簡單的解釋說明。 條件機率與貝氏定理
Thumbnail
紐約時報曾經於2018年12月製作過「How Does Your State Make Electricity?」專題,探討從2001-2017年美國各州電力系統結構變化。本篇目的旨在仿照紐約時報的做法,也製作一個屬於台灣的電力結構轉變資訊圖表。
Thumbnail
史隆運動分析論壇(MIT SSAC),是北美運動數據研究圈中最重要的交流盛會,許多的運動數據分析人才與業界相關公司,都是透過此論壇所發跡。以下為個人對SSAC 22座談會內容的彙整。
Thumbnail
這一次在高雄上課,租用昂貴的電腦教室,只是很可惜,這家巨匠居然沒有安裝office,只有開放原始碼的試算表,有一點卡卡的,影響我的教學。 趁學員陸續到期,趕緊教他們下載資料;下載資料對我來說雖然簡單,但對於這一批學員來說,卻可能是第一次操作;還好很多學員立即學會,也立馬變身為種子教官,教會旁邊的學員
Thumbnail
現代人遇到問題,就會Google。單身一個人住,回到家覺得空虛寂寞、覺得冷,於是上Google輸入:「排解寂寞」。如果喉嚨痛,會打「喉嚨痛」;發現男友出軌,很想知道原因,會打「男友出軌原因」,還有各式各樣的問題,包括但不限於:健康、家庭、經濟、政治、職場、生日要送什麽禮物、約炮、旅遊建議、學校功課答
Thumbnail
EXCEL應該是最多朋友會使用的工具,因為如果能善用EXCEL來分析手邊的股價資訊,必然能有極大的幫助。 雖然說現在市面上有非常多既有的既定工具,但資料在自己手上,分析方法由自己決定,長期來說還是比較好。 今天來講一個簡單的敘述統計...
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
上一篇介紹了 Python 中的條件判斷,方法是透過了自動程式條件式判斷,以不同劇本的方式來執行動作。然而實際情況下,我們還常會遇到一種問題,就是必須重複執行某些相同的步驟,而迴圈(loop)的設計就是為了解決此「重複執行」的一種控制結構,讓我們可以在條件符合的情況下利用迴圈執行資料的輸入、處理與輸
Thumbnail
經歷過第一次的課程內容後,我們已經初步理解到Python的基本運算功能,接下來就要開始進入到高階語言都有的程式控制邏輯,先來個小小開胃菜—條件判斷。 if敘述 直接來帶範例會比較清楚理解: 第一次我們輸入國文分數為50分,由於數值50並沒有大於60,第一個if敘述的condition條件判斷就會是F
Thumbnail
首先,聊聊我與SimilarWeb的不解之緣😊,以前在媒體界擔任產品經理時,老闆最愛問下屬的一件事,別人家競品的網站狀況如何?流量如何?廣告策略有哪些?可是坦白說,沒有認識到別家公司內部員工的話,誰有辦法清楚知道,這時只能想些折衷的辦法,去翻翻網路資訊,或請教一些數位界的前輩,了解是否有哪些第三方
Thumbnail
前幾年因為工作方面的需求,花了一些時間自學了Python,進行網站爬蟲與資料分析,但近期由於職務的轉換,Python的實作應用機會減少了許多,對於code撰寫的敏感度也因此降低不少,趁著上個月看到勞動力職能發展協會官網有一門新課程「Python大數據資料探勘分析應用班」正在線上招生,想說既然政府與公
Thumbnail
最近在公司跟資料科學家一起討論了產品推薦機制的運作邏輯,才開始理解了甚麼是關聯分析(Associative Analysis),覺得挺有趣的,想說把學習心得記錄下來,藉此機會跟大家分享。 接著下來,我們就以「樂屋網」產品的使用者行為資料庫,做為假設的範例,進行簡單的解釋說明。 條件機率與貝氏定理
Thumbnail
紐約時報曾經於2018年12月製作過「How Does Your State Make Electricity?」專題,探討從2001-2017年美國各州電力系統結構變化。本篇目的旨在仿照紐約時報的做法,也製作一個屬於台灣的電力結構轉變資訊圖表。
Thumbnail
史隆運動分析論壇(MIT SSAC),是北美運動數據研究圈中最重要的交流盛會,許多的運動數據分析人才與業界相關公司,都是透過此論壇所發跡。以下為個人對SSAC 22座談會內容的彙整。
Thumbnail
這一次在高雄上課,租用昂貴的電腦教室,只是很可惜,這家巨匠居然沒有安裝office,只有開放原始碼的試算表,有一點卡卡的,影響我的教學。 趁學員陸續到期,趕緊教他們下載資料;下載資料對我來說雖然簡單,但對於這一批學員來說,卻可能是第一次操作;還好很多學員立即學會,也立馬變身為種子教官,教會旁邊的學員
Thumbnail
現代人遇到問題,就會Google。單身一個人住,回到家覺得空虛寂寞、覺得冷,於是上Google輸入:「排解寂寞」。如果喉嚨痛,會打「喉嚨痛」;發現男友出軌,很想知道原因,會打「男友出軌原因」,還有各式各樣的問題,包括但不限於:健康、家庭、經濟、政治、職場、生日要送什麽禮物、約炮、旅遊建議、學校功課答
Thumbnail
EXCEL應該是最多朋友會使用的工具,因為如果能善用EXCEL來分析手邊的股價資訊,必然能有極大的幫助。 雖然說現在市面上有非常多既有的既定工具,但資料在自己手上,分析方法由自己決定,長期來說還是比較好。 今天來講一個簡單的敘述統計...