方格精選

入門數據分析的第一個大門檻:SQL/Hive取數

更新於 發佈於 閱讀時間約 7 分鐘

最近注意到幾所大學都創建了數據相關的學程或社群,例如中山管院:商業大數據逢甲資料科學大講堂,也有企業在做推廣(例如國泰金控數數發團隊),覺得現在學生真幸福,不禁回想自己5年前剛入這行時的學習過程…

當初的基礎僅有還不錯的統計學、一點點excel、一點點R。隨著工作難度的增加,這一點點技能已經不敷使用。開始到處找書、找案例、找課程。學習過程幾乎是缺哪補哪,沒有什麼系統章法,走了不少冤望路。

而我自己感覺學的最艱辛的,就是SQL/Hive了。本篇文章將從自己接觸SQL的心路歷程來分享SQL的重要性&不好學的原因。

也這在回想的過程中,腦中出現了一個想法:

“如果有一門課程的內容,是以數據分析工作中常用的SQL查詢操作為主,並能快速應用到分析工作中,那是不是很有價值?”
當然,我不確定市場的需求如何,因此設計了一個問卷想了解大家的需求,希望看到這篇文章的你,能夠幫忙填問卷(https://www.surveycake.com/s/wonqP)。

SQL重要嗎?

剛入行我是很純粹的分析師,例如 “分析廣告推廣的效果如何?”、“分析新的產品訂價該如何設計?”

當時基本數據都已經有報表了,所以可以根據報表的歷史數據往下分析。然而,隨著分析的角度不斷深入,或是分析的項目越來越多元,或是老闆的問題越來越多樣化…..報表的數據已經不足夠了。

為了滿足分析所需的各種數據,我只得頻繁的跟DBA要數據,但心裡總是不踏實,要是有人質疑我的分析結果的話,我自己能保證input都是合理的嗎?

不能,因為最原始的數據不是我掌握的。
我必須要會自己取數!!

這是我開始學SQL以及發現”取數”有多重要的時期

我在研究所學計量經濟學時,網上或課程都已經提供了數據,接著開始做清洗、挖掘、選特徵、建模等操作。我想大多數人學習數據分析時,也是一樣的場景。

但真實環境中,數據都是存在數資料庫中,不會SQL,無法將數據取出來,基本上寸步難行。所以我們可以看到很多人說,數據分析60%以上時間都是在取數,身為一個數據分析师,操作SQL是一個必備技能

到了現在(2020年),我觀察到的職場環境,對SQL的要求已經不僅限於數據分析師,甚至營運、PM,凡事要依賴/參考數據做出決策的職位,或多或少都會要求具備基本的SQL操作的能力。

SQL難學嗎?

我認為SQL上手不難,但要精通SQL很難,因為只能通過長時間的實戰才能掌握好它。

當時分析部門剛成立沒多久,大家的背景也都是分析為主,專精SQL的人不多。我記得每晚6點吧,team leader會在牆上教我們一些SQL的語法,從最簡單的select、通配符,到表關聯,計算函數count()等等的,奠定了我最基礎的SQL語言。

配合真實環境的操作以及網上的資源(推薦:w3c的sql手冊 SQLBoltHive Tutorial),我開始進入可以自己取數

一切就順利了嗎?不…年輕人還是太天真了。

我發現我取的數,光是跟報表對就對不上,到底差異在哪?

我跟DBA要了幾個報表的代碼來看時,看到腳本用到的多表關聯和子査詢多層嵌套讓我不禁懷疑人生,網上少提的CASE WHEN組合邏輯查詢也遍地開花,一個報表的取數SQL數百行甚至上千行的代碼也不足為奇。

我還是太淺了,買本書好好啃吧

我這麼想,畢竟研究所的學習,最大收穫就是自己找資料。然而尋尋覓覓,外面的書籍內容,講的最多的卻是資料庫設計、數據管理、底層架構。

對數據分析師來說,査詢才是做的最多的操作,畢竟使用工具是為了完成分析畢、竟我們不是運維也不是數據開發工程師,實際工作中也確實用不到這些知識。

因此我的學習過程就是看DBA的腳本,以及從分散各處的資訊,配合業務方千奇百怪的需求,實際操作、一點一滴、片段式的逐漸累積。

我想每個人在通往熟練使用SQL的道路上都會有這個“陣痛期”。當然,如今我已度過這個“陣痛期”,SQL也算熟練,但每每想到那段時間的摸索過程,還是覺得辛苦。

raw-image

我認為SQL上手不難,但要精通SQL很難,因為只能通過長時間的實戰才能掌握好它。而且SQL的學習資源是最缺乏的(相較Excel、機器學習、R等)。

因此我有個想法,如果有一門課程的內容,是以數據分析工作中常用的查詢操作為主,並能快速應用到分析工作中,甚至是把常規的分析方式,例如RFM模型、留存分析、日活、行為分佈都變成模板化呢?那是不是很有價值?

如果妳為對數據科學相關感興趣在校學生、想入職數據科學相關崗位的人群、剛入職數據相關崗位並對SQL一知半解的人。我希望這種課程能幫助到你,也請你填寫問卷讓我了解需求。

數據分析必備技能:H-SQL入門到進階_需求調研
Make your survey a piece of cake!www.surveycake.coma

raw-image

學好SQL的優點

創業公司 CitusData的雲產品負責人 Craig Kerstiens 曾發表了一篇文章SQL: One of the Most Valuable Skills來說這件事,我覺得有很大的共鳴,Craig 是這麼說的:

  1. 它對於不同的職業角色和學科來說都是有價值的;
  2. 一旦學會了就不需要重新再學;
  3. 它讓你看起來像個超級英雄。一旦你掌握了它,而其他人不懂,你就顯得特別强大

有句話我特別有感:

SQL是我所知道的最神奇的概念之一。它已經有近五十年的歷史,而且沒有被其他東西替代的迹象。我們已經創建了無數種科技來存儲和處理數據,但似乎總是嘗試在這些科技中重新實現SQL(例如Hive、Presto、KSQL)。
註:Hive是基於Hadoop的一個資料倉庫工具,可以將結構化的資料檔案映射為一張資料庫表,並提供完整的SQL査詢功能,可以將SQL語句轉換為MapReduce任務進行運行。

當紅炸子雞的Spark在支持SQL的時候也需要做到和HIVE的相容,可見HIVE已經事實上成為了Hadoop平臺上SQL和類SQL的標杆和事實的標準

Hive和SQL是非常相似的,如果你可以熟練使用SQL,就可以平穩過渡到Hive
留言
avatar-img
留言分享你的想法!
avatar-img
國欣邱的沙龍
1會員
5內容數
國欣邱的沙龍的其他內容
2020/07/11
台灣版翻譯:『精準預測-如何在巨量雜訊中,看出重要的訊號』、大陸版翻譯:『信號與噪音:大数据时代预测的科学与艺术』、 如果只是簡單地把數據放入統計模型中進行分析,然後理所當然地認為這就是真實世界的最佳寫照,事情發展若真如此,那就好了
Thumbnail
2020/07/11
台灣版翻譯:『精準預測-如何在巨量雜訊中,看出重要的訊號』、大陸版翻譯:『信號與噪音:大数据时代预测的科学与艺术』、 如果只是簡單地把數據放入統計模型中進行分析,然後理所當然地認為這就是真實世界的最佳寫照,事情發展若真如此,那就好了
Thumbnail
2020/04/05
在網上碼字這件事,可以回溯到10年前的無名小站... 時間來到三年前(2017年),腦中一直出現了,想重新用文字紀錄些什麼的想法。某一天不知怎了靈感突然來,打開電腦,用了一個下午時間,發布第一篇數據分析的文章:談談數據分析的眾多Title...
Thumbnail
2020/04/05
在網上碼字這件事,可以回溯到10年前的無名小站... 時間來到三年前(2017年),腦中一直出現了,想重新用文字紀錄些什麼的想法。某一天不知怎了靈感突然來,打開電腦,用了一個下午時間,發布第一篇數據分析的文章:談談數據分析的眾多Title...
Thumbnail
2020/03/01
武漢肺炎爆發,民間組織、學術機構、中國互聯網大廠BAT都開發了相關的產品,彼此間有什麼不同呢? 武漢疫情剛爆發時,資料科學家劉哲涵博士就招集了全球各地志願者開發了CoronaTracker網站,約翰霍普金斯大學上線了武漢肺炎全球疫情地圖(Wuhan Coronavirus (2019-nCoV)
Thumbnail
2020/03/01
武漢肺炎爆發,民間組織、學術機構、中國互聯網大廠BAT都開發了相關的產品,彼此間有什麼不同呢? 武漢疫情剛爆發時,資料科學家劉哲涵博士就招集了全球各地志願者開發了CoronaTracker網站,約翰霍普金斯大學上線了武漢肺炎全球疫情地圖(Wuhan Coronavirus (2019-nCoV)
Thumbnail
看更多
你可能也想看
Thumbnail
從8月底決定開始上課,到11月才正式進入軌道,中間9-10月因特殊原因無法自學,整個流程延到11月正式開始進入數據領域,透過小白的眼睛第一次感受到數據學習的奇妙。   我的背景介紹 : 英語教學產業8年,服飾設計電商8年(設計為主要工作,是自學,商業部分也是自學)。從文員轉到商業,再開始現在
Thumbnail
從8月底決定開始上課,到11月才正式進入軌道,中間9-10月因特殊原因無法自學,整個流程延到11月正式開始進入數據領域,透過小白的眼睛第一次感受到數據學習的奇妙。   我的背景介紹 : 英語教學產業8年,服飾設計電商8年(設計為主要工作,是自學,商業部分也是自學)。從文員轉到商業,再開始現在
Thumbnail
既然決定參加職訓,就要能夠「對症下藥」,找最接近我想做的領域來上,因此當初直接以「數據分析」、「資料科學」等關鍵字搜尋,最後選擇了結合現今正行的AI相關課程。本篇將以課程為主題,分享職訓的感想。
Thumbnail
既然決定參加職訓,就要能夠「對症下藥」,找最接近我想做的領域來上,因此當初直接以「數據分析」、「資料科學」等關鍵字搜尋,最後選擇了結合現今正行的AI相關課程。本篇將以課程為主題,分享職訓的感想。
Thumbnail
今天會簡單聊聊在商業分析師/數據分析師求職時我經歷的路、還有回顧這一路上的心得,希望大家會喜歡!
Thumbnail
今天會簡單聊聊在商業分析師/數據分析師求職時我經歷的路、還有回顧這一路上的心得,希望大家會喜歡!
Thumbnail
你可以不懂統計,但不能不知道統計思維,尤其在這個大數據時代。​這能讓你更好地解讀身邊的資訊,運用這些資訊來做出更好的決定與判斷。
Thumbnail
你可以不懂統計,但不能不知道統計思維,尤其在這個大數據時代。​這能讓你更好地解讀身邊的資訊,運用這些資訊來做出更好的決定與判斷。
Thumbnail
這篇文章會以提供學習素材以及方法的方式,分享給讀者們,也希望自己可以跟著適合自己步調的學習地圖走得更遠。 我也是數據分析初心者,所以需要一本武功秘笈,可惜沒有適合我的絕世武功,那不如我們自創一本! 程式語言: Python or R: SQL(資料庫相關) 統計分析: 統計基礎:
Thumbnail
這篇文章會以提供學習素材以及方法的方式,分享給讀者們,也希望自己可以跟著適合自己步調的學習地圖走得更遠。 我也是數據分析初心者,所以需要一本武功秘笈,可惜沒有適合我的絕世武功,那不如我們自創一本! 程式語言: Python or R: SQL(資料庫相關) 統計分析: 統計基礎:
Thumbnail
不知道大家曾經上過哪些線上平台的課程,VUCA的高變動性時代,過往體制內的科系,遠不足以應付未來世界的工作職能,而Google則根據未來市場急需且「高成長、高收益的工作」,推出3大數位學程,數據分析是一項必備的技能,協助我們找到問題的肇因、運用數據導向的思維、判斷出最佳的決策。
Thumbnail
不知道大家曾經上過哪些線上平台的課程,VUCA的高變動性時代,過往體制內的科系,遠不足以應付未來世界的工作職能,而Google則根據未來市場急需且「高成長、高收益的工作」,推出3大數位學程,數據分析是一項必備的技能,協助我們找到問題的肇因、運用數據導向的思維、判斷出最佳的決策。
Thumbnail
Do you know what “Data Analytics” is? 當你以為成為數據分析師是高薪且入門容易的職業時, 你已經進入了學無止境的不歸路…… 另外,大數據(Big data)的解釋就交給維基百科。 統計背景(Statistical background):
Thumbnail
Do you know what “Data Analytics” is? 當你以為成為數據分析師是高薪且入門容易的職業時, 你已經進入了學無止境的不歸路…… 另外,大數據(Big data)的解釋就交給維基百科。 統計背景(Statistical background):
Thumbnail
在網上碼字這件事,可以回溯到10年前的無名小站... 時間來到三年前(2017年),腦中一直出現了,想重新用文字紀錄些什麼的想法。某一天不知怎了靈感突然來,打開電腦,用了一個下午時間,發布第一篇數據分析的文章:談談數據分析的眾多Title...
Thumbnail
在網上碼字這件事,可以回溯到10年前的無名小站... 時間來到三年前(2017年),腦中一直出現了,想重新用文字紀錄些什麼的想法。某一天不知怎了靈感突然來,打開電腦,用了一個下午時間,發布第一篇數據分析的文章:談談數據分析的眾多Title...
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News