緒論:資料不科學?

更新於 發佈於 閱讀時間約 6 分鐘

我在跟許多合作的企業主洽談的時候常常都會這麼說:「資料科學本質上跟算命差不多,很多時候在真實世界的預測能力上面也許比去廟裡抽籤還差,其效果可能也比不上燒紙錢,但一旦開始決定要走這條道路,基本上你就是開始入邪教了,因為這個體系跟開發網站前後端或是app不一樣,是一個沒有終點的旅程。」

在開始探討為什麼要出這個專題以前,我想先來寫一點故事。我最早開始跟資料有接觸是在高中的時候,那時候為了經營社團開始研究光的一個特殊性質:偏光性,這是一種可以透過操作磁場改變光的行進方式的特性,在一些自然界的物質例如維他命C,都可以呈現這類的效應,但其訊號非常微弱,要捕捉出這樣的特性需要設計精巧的光學儀器與感測系統。事實上這並不是什麼前緣的科學研究,在法拉第的年代就已經知道有這樣的現象存在,只是在磁儲存尚未實現以前,這樣的概念並沒有實用價值,因此被冷落了一百多年。然而在我念高中的時代,巨磁阻效應的發現以及光學儲存媒介的進步都是讓我對這個領域充滿興趣的催化劑,雖然後來靠這個實驗贏得了2005年世界物理年的獎項,但後來進入台大電機系之後我就開始對程式與認知科學產生更濃厚的興趣,因而沒有繼續下去。即使如此,這樣的過程是非常完整的資料素養訓練,從感測器設計實驗架構規劃、訊號處理計算邏輯假設驗證以及論文的撰寫這些能力大概都在我17歲的時候就已經具備,這事實上也就是許多資料科學家都是物理學或是化學、生物學博士出身的原因:科學訓練

既是如此,那為什麼要說「資料不科學」呢?一部分是因為運用數位資料能夠做的科學性預測有其侷限性,在實務上真正能夠驅動資料科學發展的燃料其實是直覺洞見,或者你要用開天眼之類的說法也可以,總之那是一種依賴經驗或是直覺的能力,並不像是工程技術可以透過線性的訓練在短時間之內促成;另一方面是要實現資料學的能力,非常需要工程技術的配合,我常常會用一個說法來打比方,資料科學或是演算法、機器學習的成果,是類似「靈魂」或是「思想」的存在,而工程技術是「肉體」,只有靈魂而無肉體,那就是空想,只能嘴砲不能執行;空有肉體而無靈魂,就只是會動的機械,沒有辦法發展出個性或是品牌。唯有結合兩者,才能建構有靈魂的品牌價值,透過肉體去實現可規模化的商業模式。

如果你對這個領域稍微有了解,可能會聽過一句名言:

In data science, 80 percent of time spent is preparing data, 20 percent of time is spent complaining about the need to prepare data.
資料科學日常中,80%的時間是在準備資料,20%的時間是在抱怨需要準備資料

我覺得事實上是挺真確的描述了這個工作的情況,但這還只是資料科學的範疇,實際上還有資料工程的範圍需要考慮。下圖為網路上流傳對於資料人與其技能關聯的分佈圖,原始出處我就不清楚了,應該是在pinterest上面找到的,當初是為了幫一個日本公司規劃資料科學家的訓練課程所收集的:

raw-image

我覺得這張圖描述的挺符合,在學校的訓練裡面非常偏重於右下角,其他領域的訓練就相對薄弱很多,然而我在2013到矽谷的第一課就是學習軟體工程,就如同做研究需要先學習「研究方法」一樣,如果你是要做資料驅動的軟體服務,不懂軟體工程就如同不懂研究方法一樣。在過去兩年多的時間裡面,我也靠著自學補足了前後端的開發能力,以及對於雲端架構與虛擬化技術的掌握,在我目前日常的工作裡面,是依賴下圖的架構去進行的:

raw-image

在過去數年的學習裡面,最重要的突破點應該要算是在2014年認識了前Amazon的首席科學家Andreas Weigend,因為跟他有許多深入的接觸讓我得以一窺Uber、Airbnb、IBM、Google與Facebook等頂尖科技公司的資料科學家實際工作的場景與解決的問題,當然更多的是Amazon的觀點與經驗,對我來說都是非常豐厚的啟發,加上我約五年在新創公司打滾的經驗,結合成這樣子的架構觀念。

我大約在一年半以前開始嘗試自己一個人打造從一開始就融入這樣觀念的產品,以我家中藥行獨特的非結構化資料為起點,從零到一建構一個從第一天就以可擴充的資料架構與演算法為核心的產品與商業模式,在過程中因為需要處理古文與中醫專業術語而發展的中文處理技術也成為我目前協助一些台灣的新創公司發產核心演算法的主要競爭力門檻。

這個專題的目的在於透過一系列的文章,幫助對這個領域有興趣的人更了解資料處理技術在實際商業運用上所需要具備的架構觀與技術能力,同時也是我過去半年多乃至於未來一年專題寫作期間經驗、技術與智慧的累積與鎔鑄,然而因為我所具備的經驗幾乎都是在startup,因此處理的資料量級最多只到百萬筆左右,如果您的目的是想要了解tb或是pb等級的資料處理技術,建議您去了解Google Cloud所提供的解決方案或是AWS代理商所提供的專業諮詢,這個專題可能就不是您所適合的題材;若您對於專題的後續內容或是付費訂閱內容有興趣,歡迎您進一步參考專題的說明

在這個專題裡面,付費限定的文章會用到比較多技術名詞,建議您可以先嘗試了解python、flask、docker、swagger、RESTful API、pandas、numpy、d3.js等技術名詞,因為專題文章篇幅有限,不會一一介紹這些技術的細節,大體而言在付費文章裡面會需要用到的程式語言會包含但不限於以下三種:python3、javascript、yaml,若您對於以上技術名詞都感到相當陌生,建議您看公開文章即可,無須付費訂閱。

留言
avatar-img
留言分享你的想法!
avatar-img
Ofa Hsueh的沙龍
263會員
38內容數
本專題著重於探討資料分析實務,從實務經驗出發,探索學校所教導的建模以外的各項技術,包含資料前處理、營運整合與成效評估、團隊文化建構等等內容。
你可能也想看
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
這幾年資料科學很夯,搭上AI的浪潮之後更火。我自己念書期間加減碰了許多統計軟體,畢業之後就跟著這股浪潮投身資料科學的轉職。轉職不是沒有成本...嚴格說起來,成本還不小。轉換跑道至今,也有一陣子了,想分享自己的轉職之路。
Thumbnail
這幾年資料科學很夯,搭上AI的浪潮之後更火。我自己念書期間加減碰了許多統計軟體,畢業之後就跟著這股浪潮投身資料科學的轉職。轉職不是沒有成本...嚴格說起來,成本還不小。轉換跑道至今,也有一陣子了,想分享自己的轉職之路。
Thumbnail
資料科學家的不足,正成為嚴重侷限某些部門發展的因素,即便在十年後的今天仍是如此。如果說雇用資料科學家才能利用大數據,那麼經理人所面對的挑戰就是如何找到這些人才、吸引他們進入企業,並使他們發揮生產力。
Thumbnail
資料科學家的不足,正成為嚴重侷限某些部門發展的因素,即便在十年後的今天仍是如此。如果說雇用資料科學家才能利用大數據,那麼經理人所面對的挑戰就是如何找到這些人才、吸引他們進入企業,並使他們發揮生產力。
Thumbnail
2012 年,Data Scientist (資料科學家) 被《哈佛商業評論》譽為「二十一世紀最性感的職業」後,「 Data Science (資料科學) 」逐漸成為一個時髦術語(Buzzword)。 一、關於資料科學 二、資料科學重要職能
Thumbnail
2012 年,Data Scientist (資料科學家) 被《哈佛商業評論》譽為「二十一世紀最性感的職業」後,「 Data Science (資料科學) 」逐漸成為一個時髦術語(Buzzword)。 一、關於資料科學 二、資料科學重要職能
Thumbnail
對於資料科學家和數據分析師來說,雖然他們也寫程式,但他們寫程式的習慣和一般認知的工程師不太相同,甚至有些人對於寫code的背景知識明顯不足。或許你會說,「因為現在很多做數據分析的都不是本科系,理論知識當然不會那麼紮實」,我認同這是個可能的原因,但我也認為這不能當成藉口,一個專業工作者本來就應該補足自
Thumbnail
對於資料科學家和數據分析師來說,雖然他們也寫程式,但他們寫程式的習慣和一般認知的工程師不太相同,甚至有些人對於寫code的背景知識明顯不足。或許你會說,「因為現在很多做數據分析的都不是本科系,理論知識當然不會那麼紮實」,我認同這是個可能的原因,但我也認為這不能當成藉口,一個專業工作者本來就應該補足自
Thumbnail
在剛入行的時候曾經寫過一篇文章 「資料專案團隊組成」,當時把資料團隊根據技能分成資料科學家、資料分析師和資料工程師三種角色。不過在工作幾年之後,發現實務上的資料分工其實更細而且更複雜,也隱含了更多的可能性。這一篇文章將談談實務上的資料團隊分工。
Thumbnail
在剛入行的時候曾經寫過一篇文章 「資料專案團隊組成」,當時把資料團隊根據技能分成資料科學家、資料分析師和資料工程師三種角色。不過在工作幾年之後,發現實務上的資料分工其實更細而且更複雜,也隱含了更多的可能性。這一篇文章將談談實務上的資料團隊分工。
Thumbnail
在網上碼字這件事,可以回溯到10年前的無名小站... 時間來到三年前(2017年),腦中一直出現了,想重新用文字紀錄些什麼的想法。某一天不知怎了靈感突然來,打開電腦,用了一個下午時間,發布第一篇數據分析的文章:談談數據分析的眾多Title...
Thumbnail
在網上碼字這件事,可以回溯到10年前的無名小站... 時間來到三年前(2017年),腦中一直出現了,想重新用文字紀錄些什麼的想法。某一天不知怎了靈感突然來,打開電腦,用了一個下午時間,發布第一篇數據分析的文章:談談數據分析的眾多Title...
Thumbnail
此篇的來歷,是由於近期好友們逐漸知道我的近況而開始訊問並有了想轉換領域的想法,或許是因為年紀到30歲這階段,真的就會開始反思過往,然後遙想未來,雖然對本科的人來說這就是一個技能一份工作而已,但從轉換跑道的角度來看,不該只拿著“鐵鎚”去看待這樣的環境,而是隨時去挖掘機會,探索任何可能!這便是資料科學家
Thumbnail
此篇的來歷,是由於近期好友們逐漸知道我的近況而開始訊問並有了想轉換領域的想法,或許是因為年紀到30歲這階段,真的就會開始反思過往,然後遙想未來,雖然對本科的人來說這就是一個技能一份工作而已,但從轉換跑道的角度來看,不該只拿著“鐵鎚”去看待這樣的環境,而是隨時去挖掘機會,探索任何可能!這便是資料科學家
Thumbnail
我其實是成為資料工程師之後才開始學習成為一個資料工程師的。可能有些人會覺得困惑,學校裡面有很多像是機器學習、自然語言處理或是人工智慧等等課程,也有台灣人工智慧學校之類的培訓機構,現在連巨匠都開始教AI了,難道這樣不能夠讓人成為一個最性感的資料科學家嗎?
Thumbnail
我其實是成為資料工程師之後才開始學習成為一個資料工程師的。可能有些人會覺得困惑,學校裡面有很多像是機器學習、自然語言處理或是人工智慧等等課程,也有台灣人工智慧學校之類的培訓機構,現在連巨匠都開始教AI了,難道這樣不能夠讓人成為一個最性感的資料科學家嗎?
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News