如何 0–1 來預測新酒品的市場趨勢? (深度學習 - Part 1 : EDA 與 Python 畫圖工具)

更新於 發佈於 閱讀時間約 9 分鐘
「品酒」已經不再是有錢人的權利,在這個美酒當道的年代,我們要如何像 Somm 電影的品酒師,一口就能辨別出「口感」、「年份」、「產地」,甚至預測下一季爆款的酒呢?

情境:

Photo by Scott Warman on Unsplash
這時候,機器學習與深度學習都是相當好的辦法,但我們要成為好的品酒工程師之前,我們必須學會理解「數據來源」、「產業知識」、「演算法背後的機制」。更多細節與概念,歡迎參考我們過往寫過的文章 — 《猜猜這瓶紅酒多少錢─使用機器學習來做價格預測》
因此今天筆者會用 Python 來教大家探索性資料分析 (Exploratory Data Analysis ) 的方法,協助讀者可以慢慢接觸上述三種觀念。

Background 小知識時間:

何謂「探索式資料分析」?


探索性資料分析是利用資料視覺化或統計專業等等的方法,來對原始數據集進行理解,有助於後續的假說建立、數據清理 (Data Mining)、模型建置等等。
深度學習是機器學習的一個分支,較擅長處理影像、圖片與文字的特徵,
像是近期流行的口罩辨識系統、語音辨識功能、網路輿情分析等等,如果有興趣的讀者可以去看看背後的知識與技術應用,文章底下有延伸閱讀可以參考。

任務:

這次會以學習 Python 畫圖工具 pandas, matplotlib, seaborn 為主要內容,並透過 Wine Enthusiast 這個網站的評論數據集,幫助我們做 EDA 的流程,最後也會分享深度學習中的 TextBlob 應用。
(以下是 Wine Enthusiast 中的一則評論中,可以簡單看出評論內有分數、產地、價格等等的資訊,例如:這瓶酒的分數落在93分、價格是$30美金、酒精濃度是 11.5%,這些資訊都能協助我們後續的預測趨勢。)
Photo from Wine Enthusiast website.

預期成效:

藉由 EDA 快速了解數據集以及酒類的相關資訊,並透過 TextBlob 應用去分析評論,最後得到可以辨別葡萄顏色跟甜度的模型。

應用

Kaggle Wine Reviews 頁面截圖
首先我們必須利用 Kaggle 去了解我們的首要目標與 Dataset 的輪廓,因此看看其他 Kaggle 大神是如何分析也是相當重要的一個過程,有利我們後續的 EDA。
Kaggle Wine Reviews 資料樣貌
來到 Dataset 我們可以看到由左至右,分別是國家、酒品說明、葡萄的來源、分數、價格、省(酒品產地)、地區 1 、地區 2、酒廠等等。
詳細的欄位細節可以觀看上面的描述。
理解數據集的長相以後,就可以開始透過 Python 畫圖工具,幫助我們快速了解整體的框架與輪廓。

Python 畫圖工具

Pandas basic plot functions:

這張 Bar Plot 讓我們知道分數的落點,圖中顯示是 80–100 這個區間。
df_original['points'].value_counts().sort_index().plot.bar(color=(0.2, 0.4, 0.6, 0.6))

matplotlib:

我們也可以透過 matplotlib 並增加 圖片尺寸(figsize) 跟 文字大小(fontsize)來優化我們圖。
import matplotlib as mlt
#Using Matplotlib: Change the title fontsize
plot01 = df_original['points'].value_counts().sort_index().plot.bar(
figsize = (14,8),
fontsize = 16,
color=(0.1, 0.3, 0.5, 0.7))
plot01.set_title("Counts of the Wine Points", fontsize = 18)
plot01.set_xlabel("Points", fontsize = 18)
plot01.set_ylabel("Count", fontsize = 18)
酒類分數計算

Seaborn packages

如果需要更複雜的圖表可以透過 Seaborn 來協助完成,像是以下就是展示四個國家酒類分數的分佈比例。
import seaborn as sns
# Extract wine scores from two countries US and France
df = df_original[df_original['country'].isin(['US','France', 'Canada', 'Spain'])]
g = sns.FacetGrid(df, col = "country", col_wrap = 2)
g.map(sns.kdeplot, "points")
多數國家的酒品分數都落在85分左右
上圖可得知加拿大的酒品分數集中於90分,遠遠超越其他三個國家的比例。

結論:

EDA 我們得到的 points:
  • 酒類的評論分數落在 80–100 之間,很少低於或高於這個區域。
  • 80% 的酒品分數皆在 83–93 這個區間。
  • 四個國家的評論分數的眾數都是 85–92 分。
  • 唯有加拿大(Canada) 有更高比例的集中於 90 分的位置。
  • 我們可以得知「國家」對於「酒品的分數」有一定的影響力。
透過以上 EDA 的流程能幫助數據工程師更好的理解數據、產業知識,有利後續的顧客溝通與需求的定義,因此 EDA 其實是相當重要的一環。

後續文章預告:

筆者想分享 Python TextBlob 套件能讓我們利用 NLP(Natural language processing)辨識文字評論與情緒,最後達到「分辨不同酒品中葡萄的顏色與甜度」的模型。
以下是辨別紅白酒的結果,主要是透過 Textbolb 去 Parse 重要的文字,再透過領域知識與演算法,來計算出分數,並定義出最終的結果。

Python TextBlob 更多可以應用的情境:

也可以應用機器學習中的預測與分類的方法,去辨別酒品的好壞,甚至預測新品的分數。
舉例:
  • 名詞短語提取(Noun phrase extraction)
  • 詞性標記(Part-of-speech tagging)
  • 情緒分析(Sentiment analysis)
  • 分類(樸素貝葉斯,決策樹)
  • 標記化(將文字拆分為單詞和句子)
  • 單詞和短語頻率(Word and phrase frequencies)
作者:黃榮晟(臺灣行銷研究特邀作者)、劉加德(臺灣行銷研究特邀編審)、鍾皓軒(臺灣行銷研究有限公司創辦人)

如果喜歡筆者的文章,歡迎拍手跟訂閱讓我們知道。

詳細的程式碼可以參考以下:

Marketing-Data-Science-Application/如何 0–1 來預測新酒品的市場趨勢 at master · HowardNTUST/Marketing-Data-Science-Application (github.com)

補充的 EDA 文章:

何謂「探索式資料分析」? — 台灣 | IBM
EDA for Machine Learning | Exploratory Data Analysis in Python (analyticsvidhya.com)
顧客資料透視(一部曲)-互動式表格【附Python程式碼】. 資料視覺化 (Data… | by 行銷資料科學 | Marketingdatascience | Medium
自然語言處理 (NLP) 與 TextBolb 套件資訊:
TextBlob: Simplified Text Processing — TextBlob 0.16.0 documentation
What is Natural Language Processing? | IBM
人工智慧與機器學習-行銷資料科學家必備技能之一. 在第一篇文章當中,我們提到人工智慧(Artificial… | by 李蓓儒 | Marketingdatascience | Medium

參考資料:

Plotting with pandas, matplotlib, and seaborn | Kaggle
TextBlob for determining grape color and sweetness | Kaggle
Somm (2012) — IMDb
You searched for | Wine Enthusiast (winemag.com)
wine-deep-learning/README.md at master · zackthoutt/wine-deep-learning · GitHub
Bivariate plotting with pandas | Kaggle

即將進入廣告,捲動後可繼續閱讀
為什麼會看到廣告
avatar-img
70會員
124內容數
• Data Analyst x Dcard 7000+ Creator • 分享 #個人品牌 |#AI工具| #Lifestyle
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Dodson的沙龍 的其他內容
我想人類從出生直到死亡都是如此,能量的變化是根據多種層面,可能是一件小事、一次傷痛的過往、一個難以忘懷的恥辱,太多太多的選擇錯綜複雜,很難一一解決。 解決辦法有很多種,但筆者這次會分享三件可以打敗低潮的方案,我們開始吧! 基本上,方案都是圍繞在「如何學會生活」? ▍1. 人生暫停 1 個禮拜:
▍前言: 「人際關係」乃是馬斯洛需求層次理論中重要的一環,親密關係可以歸類為「愛與歸屬感」,因此透過需求金字塔的堆砌,我們能由下而上、由上而下去多方位思考,究竟如何攻略「愛情」這一場關卡。 ▍情境: ▍任務: 1. 什麼是人見人愛的自我介紹風格? 2. 如何開啟話題? ▍應用:
前言: 「訂閱制」成了現代21世紀的公司獲利的新商業模式, 我們能從這篇新聞得到什麼呢? 3-takeaway 吸引「新客戶」乃是訂閱制的關鍵因素: 留下「舊客戶」是絕對的聖旨: 根據哈佛商業評論指出: 「尋找」新顧客的成本遠遠超過「保住」舊顧客的五倍之多 疫情改變了人們的消費習慣 原文:
這是我面試當時面試 ETL 工程師的解方,基本上是以 SQL 為主要的攻略對象, 這裡會用 0 到 1 的方式去學習、複習、解題、面試小技巧等等的資源去分享。 不過還是來分享自己是如何準備 ETL 工程師這一個職缺的歷程, 接下來會給出「學習步驟」、「刷題小技巧」、「面試全攻略」。
大學生的日常,除了學業、社團、愛情學分,絕對少不了創業競賽的這場遊戲,筆者參與為期一年的創業人計畫,過程從團體組隊、題目發想、爭吵破裂、進度推進、個人啟發,在這裡我會分析給讀者三個創業競賽你一定要知道的觀點,「做就對了!」、「失敗到底算什麼!」、「吵架乃創業常事」。 做就對了: 失敗到底算什麼:
這篇文章會以提供學習素材以及方法的方式,分享給讀者們,也希望自己可以跟著適合自己步調的學習地圖走得更遠。 我也是數據分析初心者,所以需要一本武功秘笈,可惜沒有適合我的絕世武功,那不如我們自創一本! 程式語言: Python or R: SQL(資料庫相關) 統計分析: 統計基礎:
我想人類從出生直到死亡都是如此,能量的變化是根據多種層面,可能是一件小事、一次傷痛的過往、一個難以忘懷的恥辱,太多太多的選擇錯綜複雜,很難一一解決。 解決辦法有很多種,但筆者這次會分享三件可以打敗低潮的方案,我們開始吧! 基本上,方案都是圍繞在「如何學會生活」? ▍1. 人生暫停 1 個禮拜:
▍前言: 「人際關係」乃是馬斯洛需求層次理論中重要的一環,親密關係可以歸類為「愛與歸屬感」,因此透過需求金字塔的堆砌,我們能由下而上、由上而下去多方位思考,究竟如何攻略「愛情」這一場關卡。 ▍情境: ▍任務: 1. 什麼是人見人愛的自我介紹風格? 2. 如何開啟話題? ▍應用:
前言: 「訂閱制」成了現代21世紀的公司獲利的新商業模式, 我們能從這篇新聞得到什麼呢? 3-takeaway 吸引「新客戶」乃是訂閱制的關鍵因素: 留下「舊客戶」是絕對的聖旨: 根據哈佛商業評論指出: 「尋找」新顧客的成本遠遠超過「保住」舊顧客的五倍之多 疫情改變了人們的消費習慣 原文:
這是我面試當時面試 ETL 工程師的解方,基本上是以 SQL 為主要的攻略對象, 這裡會用 0 到 1 的方式去學習、複習、解題、面試小技巧等等的資源去分享。 不過還是來分享自己是如何準備 ETL 工程師這一個職缺的歷程, 接下來會給出「學習步驟」、「刷題小技巧」、「面試全攻略」。
大學生的日常,除了學業、社團、愛情學分,絕對少不了創業競賽的這場遊戲,筆者參與為期一年的創業人計畫,過程從團體組隊、題目發想、爭吵破裂、進度推進、個人啟發,在這裡我會分析給讀者三個創業競賽你一定要知道的觀點,「做就對了!」、「失敗到底算什麼!」、「吵架乃創業常事」。 做就對了: 失敗到底算什麼:
這篇文章會以提供學習素材以及方法的方式,分享給讀者們,也希望自己可以跟著適合自己步調的學習地圖走得更遠。 我也是數據分析初心者,所以需要一本武功秘笈,可惜沒有適合我的絕世武功,那不如我們自創一本! 程式語言: Python or R: SQL(資料庫相關) 統計分析: 統計基礎:
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
生活在這個世代的調香師很幸福,因為除了錢,大致上網路能解決很多事情。初學者,很多事情沒有頭緒,又不知道怎麼做,別忘了,這是一個AI的時代。有很多AI軟件,您可以使用。 未來要這領域真正突破與脫穎而出的調香師,要能理解跟走進去心靈,一個人配出一罐香水,你可以講出他配置的真正目的與心中的想法。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
【品牌定位的STP分析在學術研究中的應用】 ── 1. Segmentation 市場細分 2. Targeting 目標市場選擇 3. Positioning 市場定位 在行銷課堂上學到的品牌定位的STP分析,不僅適用於商業領域,也可以巧妙地應用於學術研究和寫作中。尤其是在機器學習這樣一個多學
Thumbnail
這篇文章分享了作者在參與預估專案時的思考脈絡和學習點,透過兩個具體的案例,探討了預估方法中重要的假設和挑戰。
Thumbnail
在商場中,常常會藉由一起吃飯、喝酒的場合來拉近彼此之間的關係。我們都知道喝酒對於開車這種需要專注的工作會造成很大的影響,對於決策呢,酒精會影響我們的判斷嗎?《洞悉價格背後的心理戰Priceless: The Myth of Fair Value》一書作者William Poundstone,在書中介
這支酒甜度肯定是dry,酸度中等,單寧重,果味強烈而且酒體厚重”,在品酒會上聽到講師如此敘述葡萄酒時,或是在閱讀推薦酒款介紹時,是否偶爾會一頭霧水?其實這一句話中敘述了品飲葡萄酒時最重要的五個術語。 1. 甜度(Sweetiness) 甜度是人類的舌頭尖端最先感受到的味覺,所以這往往是人們將酒飲
Thumbnail
不知道大家會不會有這種感覺,在使用現今的一些預訓練模型時,雖然好用,但是實際在場域部屬時總感覺殺雞焉用牛刀,實際使用下去後續又沒有時間讓你去優化它,只好將錯就錯反正能用的想法持續使用,現在有個不錯的方法讓你在一開始就可以用相對低廉的成本去優化這個模型,讓後續使用不再懊悔。
Thumbnail
STP分析—市場細分、目標市場選擇和市場定位—不僅是行銷理論的核心,同時也可以是學術寫作和發表的強大工具。特別是在機器學習這一跨學科領域,運用STP分析可以明顯提高研究的影響力和可讀性。本文分享如何運用STP分析來優化機器學習的學術研究和寫作。
今天從行銷課堂上聽到了品牌定位的STP分析,十分有趣。 STP分別表示 - Segmentation 市場細分 - Targeting 目標市場選擇 - Positioning 市場定位 雖然STP分析本身是行銷理論, 但我發現STP分析用在學術研究以及學術寫作也相當適合。
Thumbnail
在現代科技的影響下,紅酒保存已經進入了一個嶄新的時代。本文將深入探討智能家居科技如何在紅酒保存中發揮作用,提供更智能、可持續和高效的方式來保存和品味美酒。 智能家居科技和紅酒保存的交匯 智能家居科技的崛起 智能家居科技包括智能冰箱、智能溫控系統、智能儲酒櫃等,已經開始改變了紅酒保存的方
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
生活在這個世代的調香師很幸福,因為除了錢,大致上網路能解決很多事情。初學者,很多事情沒有頭緒,又不知道怎麼做,別忘了,這是一個AI的時代。有很多AI軟件,您可以使用。 未來要這領域真正突破與脫穎而出的調香師,要能理解跟走進去心靈,一個人配出一罐香水,你可以講出他配置的真正目的與心中的想法。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
【品牌定位的STP分析在學術研究中的應用】 ── 1. Segmentation 市場細分 2. Targeting 目標市場選擇 3. Positioning 市場定位 在行銷課堂上學到的品牌定位的STP分析,不僅適用於商業領域,也可以巧妙地應用於學術研究和寫作中。尤其是在機器學習這樣一個多學
Thumbnail
這篇文章分享了作者在參與預估專案時的思考脈絡和學習點,透過兩個具體的案例,探討了預估方法中重要的假設和挑戰。
Thumbnail
在商場中,常常會藉由一起吃飯、喝酒的場合來拉近彼此之間的關係。我們都知道喝酒對於開車這種需要專注的工作會造成很大的影響,對於決策呢,酒精會影響我們的判斷嗎?《洞悉價格背後的心理戰Priceless: The Myth of Fair Value》一書作者William Poundstone,在書中介
這支酒甜度肯定是dry,酸度中等,單寧重,果味強烈而且酒體厚重”,在品酒會上聽到講師如此敘述葡萄酒時,或是在閱讀推薦酒款介紹時,是否偶爾會一頭霧水?其實這一句話中敘述了品飲葡萄酒時最重要的五個術語。 1. 甜度(Sweetiness) 甜度是人類的舌頭尖端最先感受到的味覺,所以這往往是人們將酒飲
Thumbnail
不知道大家會不會有這種感覺,在使用現今的一些預訓練模型時,雖然好用,但是實際在場域部屬時總感覺殺雞焉用牛刀,實際使用下去後續又沒有時間讓你去優化它,只好將錯就錯反正能用的想法持續使用,現在有個不錯的方法讓你在一開始就可以用相對低廉的成本去優化這個模型,讓後續使用不再懊悔。
Thumbnail
STP分析—市場細分、目標市場選擇和市場定位—不僅是行銷理論的核心,同時也可以是學術寫作和發表的強大工具。特別是在機器學習這一跨學科領域,運用STP分析可以明顯提高研究的影響力和可讀性。本文分享如何運用STP分析來優化機器學習的學術研究和寫作。
今天從行銷課堂上聽到了品牌定位的STP分析,十分有趣。 STP分別表示 - Segmentation 市場細分 - Targeting 目標市場選擇 - Positioning 市場定位 雖然STP分析本身是行銷理論, 但我發現STP分析用在學術研究以及學術寫作也相當適合。
Thumbnail
在現代科技的影響下,紅酒保存已經進入了一個嶄新的時代。本文將深入探討智能家居科技如何在紅酒保存中發揮作用,提供更智能、可持續和高效的方式來保存和品味美酒。 智能家居科技和紅酒保存的交匯 智能家居科技的崛起 智能家居科技包括智能冰箱、智能溫控系統、智能儲酒櫃等,已經開始改變了紅酒保存的方