談到數據調查,以往我們的認知可能是拜託別人做問卷,然後回收再進行量化處理。但在歷經一段這麼辛苦的歷程後,更糟糕的是,所獲得的數據可能也不是最貼近現實的。
因為別人沒有坦誠的動機。
舉例來說,有關於瀏覽色情網站的調查,再怎麼詳盡,絕對沒有直接以色情網站直接獲得的數據來得真實,因為相較於問卷,直接瀏覽的行為絕對是最直接的,不會騙人。
大數據越大就越好嗎?
這其實是個迷思,因為我們最需要獲得的,其實不是更多更大的數據,而是最正確的數據。Google在搜尋引擎方面,之所以能夠脫穎而出,靠的是能夠在第一頁,就能提供我們最符合搜尋字詞的訊息,所以如果我們沒辦法在大數據當中,解讀出獨特的見解,那麼獲取更多的數據,某種程度來說,只是獲取更多無用的垃圾。
大數據的作用:提供新類型的數據、誠實的數據、允許把焦點放在人口的小子集、提供因果關係。
作者認為,大數據最好是運用在傳統方法效率極差的市場裡,才能發揮最強威力。
事實可能不是你想得那樣
在賽馬領域,以往都是追溯血統與考量體型,來預測該賽馬未來是否會在賽場上大放異彩,但這方法其實用在NBA賽場上就知道,喬丹的兒子也沒能在NBA場上活躍XD。因此有數據學家專門評估馬的各種屬性,包含鼻孔大小、快縮肌體積、糞便重量等因素,是否與賽馬場上的表現有關聯,最後找到一個重要關鍵-左心室大小,後來這匹馬成為三冠王。
另外,看暴力電影會導致人們變得更暴力嗎?作者也以科學方式,驗證暴力電影上映期間,暴力案件是否有增加的趨勢,最後得出的結論是沒有。無論如何,以科學方式所得出的結論,總比「口說無憑」來得有說服力。
大數據真的無所不能嗎?非也。
作者提到「維度的詛咒」,如果你把一千枚硬幣編號,每天丟硬幣預測股市漲跌,發現丟到第三百九十一枚硬幣時,股市大漲機率高達百分之70.3,那以後只要丟這枚「第三百九十一號」的硬幣就能發大財嗎?絕對也是不行。
影響某事件的變數可能很多,如果把瞎貓碰上死耗子,誤認為瞎貓可以抓老鼠,那就會變得非常危險。
大數據的道德問題
比如書中提到,線上借款的網站,根據申請人的自述與最後還款表現,發現使用了「無債務、稅後、畢業」等字眼的人最有可能還款,使用「醫院、上帝、會還錢、承諾」等字眼的人,最不可能還款。那麼,以後可以不借款給提及「醫院」的人嗎?萬一他是真的有親人因病在醫院真的需要借錢呢?
西恩後見
這本書用數據解釋了「哪個地區的人出名機率較高?」「在NBA打出名堂真的是比較貧窮的人嗎?」「成績類似,最後有上好學校,會比唸次一等學校的人的人生際遇來得好嗎?」等非常有趣的問題。如果沒有數據佐證,大家勢必受到「刻板印象」影響,但事實可能並不是你想得那樣。
最後,西恩想到之前去上網路行銷的課,提到網頁跳出率,一般來說,網頁跳出率越高,代表那個網頁設計或是內容不太好,導致大家看到個網頁時決定跳出。但色情網站的跳出率越高,代表那個網頁很棒,至於為什麼?就有待大家用智慧思考。
西恩的文章都是花費時間閱讀、整理與提出心得,如果喜歡或是覺得有幫助到你,可以日行一善,在下方幫我按五下拍手鼓勵(化讚為賞幫助我)、留言(交流內心想法),或是按愛心(讓我知道有幫助到你),一起用實際行動,營造正向力量:)