Q1. 大數據的特徵是什麼?
Q2. 大數據思維的特徵是什麼?
Q3. 世界的本質是數據和計算嗎?
Q4. 科學研究最新 (第四) 範式 (paradigm) 是什麼?
對Q1-Q4的回答如下:
古希臘畢達格拉斯主張數是萬物的本原, 萬事萬物都是對於數的模仿; 他用抽象思維中的數說明具體感官世界的事物, 由數學神秘主義引出宗教神秘主義。
兩千多年後的21世紀, 大數據技術革命也將人類帶向一個新的時代-大數據時代。數據代替了數, 成為人們崇仰的新偶像, 形成以大數據為核心的準宗教神秘主義。
例如: 大數據理論家荀柏格 (V. Mayer-Schonberger) 說:「世界的本質就是數據; 一切皆可量化」; 知名的五三八民意調查網站站主 N. Silver 說:「訊號就是真理」; 麥克阿瑟天才獎得主與數學軟體 Mathematica 設計人 S. Wolfram 說:「宇宙的本質是計算, 宇宙的一切規律都可以經由簡單程序的反覆計算而獲得」等。
將 (大) 數據以及其中的訊號和計算當成世界的本質, 只是主觀的想像、猜測或推理, 並無客觀的可驗證性。這種本體論的陳述在20世紀已經被分析哲學家們認為不具有意義而被拒斥。
大數據真正的意義不在於狂妄的上探本體 (哲學家康德的本體不可知論是較謙卑的選擇) 而在於對現象世界認識的界碑的向外巨大推移, 在於認識論上的方法學突破, 其重要性在於如同圖靈獎得主格雷 (J. Gray ) 所言:「大數據技術帶來了繼經驗科學、理論科學和模擬計算科學後的科學研究第四範式-稱為數據密集型科學研究範式」。
因為大數據離不開計算, 例如演算法 (為計算統計computational statistics、機器學習、數據採礦、人工智能 AI 等的前提基礎)、模擬法 (simulation) 及雲端計算等-皆為當代的主流顯學-所以第四範式的核心特徵可以用「大數據計算主義」概括。
從海量駁雜數據中尋找數據規律以發現對應的現象世界-自然世界或者人類社會-的規律是當代的重大課題。據估計, 大數據中絕大多數都是屬於從大紀錄而來的非結構型、半結構型或者異質結構型數據, 這對於傳統上處理從小測量而來的結構型數據的機率和統計思維和方法形成嚴峻的挑戰。
顯然地,大數據思維是要藉由巨量數據去描述和了解世界、發現和解決問題以及預測未來;它必定是辯證地繼承和發展 (繼承中有揚棄、發展中有保留) 機率和統計思維。
換個角度看,統計要成功地回應大數據的挑戰,就必定要「在研究範圍 (對象) 和分析方法上不斷擴展。… 數據導向的、基於演算法的數據分析方法成為電算機時代統計學發展無法迴避的一個重要趨勢」[註1]。
大數據的特徵一般是以4V: Volume, Variety, Velocity, Veracity表示之,即數據量巨大(處理起來計算量龐大); 數據種類駁雜多樣;數據蒐集、儲存、處理及傳輸速度快 (多須自動化處理);數據真實性及準確性可疑 (含有雜訊、錯誤及模糊性);有人用大、雜、快、疑這四個字來加以概括。
從大數據特徵的描述中可以知道: 在理性思維方面, 除了繼承和發展機率和統計思維, 大數據思維還必須融入複雜性思維及實用主義思維-這三類相異卻又內在相聯繫思維方式的辯證統一是其發展的必然方向; 在非理性感性方面, 除了繼承機率和統計所包含的非理性感性因素, 還必須融入具有後現代主義色彩的一些因素諸如雜多性、模糊性、混亂性、非結構性、碎片性等。
[註1] 魏瑾瑞、蔣萍 (2014)。數據科學的統計學内涵。統計研究, 31, pp.3-9。
本文圖片轉載自: group.dailyview.tw/article/detail/682www.largitdata.com/blog_detail/20190725http://medium.com/....../%E8%B3%87%E6%96%99%E7%A7%91......