淺談大數據

更新於 發佈於 閱讀時間約 4 分鐘

Q1. 大數據的特徵是什麼?

Q2. 大數據思維的特徵是什麼?

Q3. 世界的本質是數據和計算嗎?

Q4. 科學研究最新 (第四) 範式 (paradigm) 是什麼?

raw-image

對Q1-Q4的回答如下:

古希臘畢達格拉斯主張數是萬物的本原, 萬事萬物都是對於數的模仿; 他用抽象思維中的數說明具體感官世界的事物, 由數學神秘主義引出宗教神秘主義。

兩千多年後的21世紀, 大數據技術革命也將人類帶向一個新的時代-大數據時代。數據代替了數, 成為人們崇仰的新偶像, 形成以大數據為核心的準宗教神秘主義。

raw-image

例如: 大數據理論家荀柏格 (V. Mayer-Schonberger) 說:「世界的本質就是數據; 一切皆可量化」; 知名的五三八民意調查網站站主 N. Silver 說:「訊號就是真理」; 麥克阿瑟天才獎得主與數學軟體 Mathematica 設計人 S. Wolfram 說:「宇宙的本質是計算, 宇宙的一切規律都可以經由簡單程序的反覆計算而獲得」等。

將 (大) 數據以及其中的訊號和計算當成世界的本質, 只是主觀的想像、猜測或推理, 並無客觀的可驗證性。這種本體論的陳述在20世紀已經被分析哲學家們認為不具有意義而被拒斥。

大數據真正的意義不在於狂妄的上探本體 (哲學家康德的本體不可知論是較謙卑的選擇) 而在於對現象世界認識的界碑的向外巨大推移, 在於認識論上的方法學突破, 其重要性在於如同圖靈獎得主格雷 (J. Gray ) 所言:「大數據技術帶來了繼經驗科學、理論科學和模擬計算科學後的科學研究第四範式-稱為數據密集型科學研究範式」。

因為大數據離不開計算, 例如演算法 (為計算統計computational statistics、機器學習、數據採礦、人工智能 AI 等的前提基礎)、模擬法 (simulation) 及雲端計算等-皆為當代的主流顯學-所以第四範式的核心特徵可以用「大數據計算主義」概括。

從海量駁雜數據中尋找數據規律以發現對應的現象世界-自然世界或者人類社會-的規律是當代的重大課題。據估計, 大數據中絕大多數都是屬於從大紀錄而來的非結構型、半結構型或者異質結構型數據, 這對於傳統上處理從小測量而來的結構型數據的機率和統計思維和方法形成嚴峻的挑戰。

顯然地,大數據思維是要藉由巨量數據去描述和了解世界、發現和解決問題以及預測未來;它必定是辯證地繼承和發展 (繼承中有揚棄、發展中有保留) 機率和統計思維。

換個角度看,統計要成功地回應大數據的挑戰,就必定要「在研究範圍 (對象) 和分析方法上不斷擴展。… 數據導向的、基於演算法的數據分析方法成為電算機時代統計學發展無法迴避的一個重要趨勢」[註1]。

raw-image

大數據的特徵一般是以4V: Volume, Variety, Velocity, Veracity表示之,即數據量巨大(處理起來計算量龐大); 數據種類駁雜多樣;數據蒐集、儲存、處理及傳輸速度快 (多須自動化處理);數據真實性及準確性可疑 (含有雜訊、錯誤及模糊性);有人用大、雜、快、疑這四個字來加以概括。

從大數據特徵的描述中可以知道: 在理性思維方面, 除了繼承和發展機率和統計思維, 大數據思維還必須融入複雜性思維及實用主義思維-這三類相異卻又內在相聯繫思維方式的辯證統一是其發展的必然方向; 在非理性感性方面, 除了繼承機率和統計所包含的非理性感性因素, 還必須融入具有後現代主義色彩的一些因素諸如雜多性、模糊性、混亂性、非結構性、碎片性等。

[註1] 魏瑾瑞、蔣萍 (2014)。數據科學的統計學内涵。統計研究, 31, pp.3-9。


本文圖片轉載自: group.dailyview.tw/article/detail/682www.largitdata.com/blog_detail/20190725http://medium.com/....../%E8%B3%87%E6%96%99%E7%A7%91......

avatar-img
126會員
66內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
吳鐵肩的沙龍 的其他內容
藍白合又卡關了。卡關的原因是對於藍白協議第三條「在統計誤差範圍內」解釋或理解上的差異。 有兩種可能:一是柯文哲及柯陣營都對「在統計誤差範圍內」的真正意義無知,二是柯陣營明知其真正意義卻胡攪蠻纏不認輸,他們企圖用否定性言語扭曲真理、煽動群眾,是對科普教育的反動,更是對學術尊嚴的蔑視。
為了2024總統大選,幾個政黨激烈鬥爭,有如幫派火拼,抹黑、抹紅、造謠、威脅、背信、舞弊等全都來。政客們在台灣搞民主內鬥,面對西方強權,卻崇美媚日,對白人日人卑躬屈膝。一些政客為了權勢出賣個人尊嚴,也出賣台灣人民整體的尊嚴和利益。他們對美日等乖順如羊,但對台灣人民卻狡詐似狐,用各種話術或辯術欺騙人民
2024總統大選在即,藍營與白營仍舊在爾虞我詐的爭鬥,似破非破、似合非合。全台所有盼望政黨輪替的人民都陷入焦慮,憂心藍白分裂,輸掉大選,腐敗的綠色政權繼續執政,使台灣持續的經濟凋蔽、道德敗壞、價值淪喪;最後甚至將兩岸引向戰爭。郭台銘成立主流民意大聯盟獨立參選總統;根據民調,他可以瓜分非綠陣營一成選票
為了下架民進黨, 許多人民自動自發地形成一大群體-姑且稱之為「下民黨」, 其共同理念是用投票終結民進黨貪腐無能的統治, 保持兩岸和平, 避免戰爭; 其當前的要務是促成藍白合作以贏得2024總統大選。 在此前提下, 侯友宜和柯文哲這兩人誰作總統或誰作副總統候選人都可以。
美國依賴軍事、科技、金融、話語這四大霸權統治世界—在全球進行長臂管轄,雖遠必誅。 美國和中國的衝突除了修昔底德陷阱的「權力衝突」之外,就是白種人歧視黃種人的「人種衝突」、基督教文明歧視儒家文明的「文明衝突」、全民選舉制度歧視開明專制制度的「制度衝突」。美國帶著各種歧視圍堵中國,無所不用其極。
前農業部長陳吉仲對於過期蛋、前中央防疫中心指揮官陳時中對於新冠疫苗採購都處理得荒腔走板、弊端叢生,搞得民怨沸騰、怨聲載道。再加上陳建仁 (一篇共同掛名論文被認證抄襲、竭力護航高端疫苗)、陳明通 (使台大國發所淪為假論文製造所) 及陳水扁 (涉國務機要費貪污、海角七億洗錢案) 形成民進黨的「五陳之亂」
藍白合又卡關了。卡關的原因是對於藍白協議第三條「在統計誤差範圍內」解釋或理解上的差異。 有兩種可能:一是柯文哲及柯陣營都對「在統計誤差範圍內」的真正意義無知,二是柯陣營明知其真正意義卻胡攪蠻纏不認輸,他們企圖用否定性言語扭曲真理、煽動群眾,是對科普教育的反動,更是對學術尊嚴的蔑視。
為了2024總統大選,幾個政黨激烈鬥爭,有如幫派火拼,抹黑、抹紅、造謠、威脅、背信、舞弊等全都來。政客們在台灣搞民主內鬥,面對西方強權,卻崇美媚日,對白人日人卑躬屈膝。一些政客為了權勢出賣個人尊嚴,也出賣台灣人民整體的尊嚴和利益。他們對美日等乖順如羊,但對台灣人民卻狡詐似狐,用各種話術或辯術欺騙人民
2024總統大選在即,藍營與白營仍舊在爾虞我詐的爭鬥,似破非破、似合非合。全台所有盼望政黨輪替的人民都陷入焦慮,憂心藍白分裂,輸掉大選,腐敗的綠色政權繼續執政,使台灣持續的經濟凋蔽、道德敗壞、價值淪喪;最後甚至將兩岸引向戰爭。郭台銘成立主流民意大聯盟獨立參選總統;根據民調,他可以瓜分非綠陣營一成選票
為了下架民進黨, 許多人民自動自發地形成一大群體-姑且稱之為「下民黨」, 其共同理念是用投票終結民進黨貪腐無能的統治, 保持兩岸和平, 避免戰爭; 其當前的要務是促成藍白合作以贏得2024總統大選。 在此前提下, 侯友宜和柯文哲這兩人誰作總統或誰作副總統候選人都可以。
美國依賴軍事、科技、金融、話語這四大霸權統治世界—在全球進行長臂管轄,雖遠必誅。 美國和中國的衝突除了修昔底德陷阱的「權力衝突」之外,就是白種人歧視黃種人的「人種衝突」、基督教文明歧視儒家文明的「文明衝突」、全民選舉制度歧視開明專制制度的「制度衝突」。美國帶著各種歧視圍堵中國,無所不用其極。
前農業部長陳吉仲對於過期蛋、前中央防疫中心指揮官陳時中對於新冠疫苗採購都處理得荒腔走板、弊端叢生,搞得民怨沸騰、怨聲載道。再加上陳建仁 (一篇共同掛名論文被認證抄襲、竭力護航高端疫苗)、陳明通 (使台大國發所淪為假論文製造所) 及陳水扁 (涉國務機要費貪污、海角七億洗錢案) 形成民進黨的「五陳之亂」
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
大數據時代,統計學如何引領數據革命? 在大數據的時代,數據的數量和複雜性以前所未有的速度增長,這對統計學提出了前所未有的挑戰與機遇。隨著互聯網、物聯網(IoT)、社交媒體和傳感器技術的迅速發展,企業、政府以及個人生成的數據量以指數級增長。這些數據包含了多樣化的結構,如結構化數據、非結構化數據(如文
  啟蒙時代一方面是這種「全人典範」的高峰,也幾乎是它終結的時候。宗教改革、啟蒙運動與科學革命一方面形構出了一種現代人的主體性,卻同時剝除了過往支撐人們活下去的前現代意義與願景。我們的世界逐漸變得「數值清晰」,文明的保守性取代了冒險的樂趣。人類的專業知識總額得到指數性的積累,卻更加侷限在自己的圈圈。
量子計算,這個聽起來有點科幻的技術,正逐漸成為現實,而且它有可能徹底改變我們處理信息的方式。
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網
Thumbnail
精彩內容請點擊觀看:宇宙的終極之謎:科學家眼中的上帝存在論證;希格斯玻色子的上帝粒子、量子糾纏、宇宙微調論、康托爾的數學無限論、哥德爾本體論的數學邏輯證明、阿奎那的神學五路證明 (youtube.com) 在浩瀚的宇宙間,人類自古以來便不斷追問一個永恆的問題:“萬物萬象的根源是什麼?”歷代哲學家
Thumbnail
孔恩在《科學革命的結構》描述了世界觀之所以改變,在於科學典範paradigms)間的移轉。科學隨著典範移轉,產生了新的信念、新的理論、新的方法與新的標準。從亞里斯多德、托勒密系統、牛頓物理學、愛因斯坦物理學及量子力學,世界觀便是隨著這些典範移轉而改變。但是,世界觀難道全權由科學典範所主宰嗎?
Thumbnail
科學是一種有系統性的知識體系,而哲學則會持續提問理論命題是否合理、實驗是否能完整說明理論想探討的範圍,而實驗是否可複製。典範的興起與跌落是必然的,而數據只是數據,具有可操弄性,必須用該理論是否合理和實用性來檢驗。
Thumbnail
哲學的思考方法為,一假設問題的提出,然後再藉由論證的方式證成一預設的概念,最後獲得一個解答、一個立場、一個理論。不管是哲學理論或科學理論,都共同面對一個問題─理論永遠只反映事實的某個片段而已;因為形成理論的過程,是一個將複雜問題「簡化」的過程。哲學方法有沒有可能反應真實的複雜呢?當哲學能夠反
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
大數據時代,統計學如何引領數據革命? 在大數據的時代,數據的數量和複雜性以前所未有的速度增長,這對統計學提出了前所未有的挑戰與機遇。隨著互聯網、物聯網(IoT)、社交媒體和傳感器技術的迅速發展,企業、政府以及個人生成的數據量以指數級增長。這些數據包含了多樣化的結構,如結構化數據、非結構化數據(如文
  啟蒙時代一方面是這種「全人典範」的高峰,也幾乎是它終結的時候。宗教改革、啟蒙運動與科學革命一方面形構出了一種現代人的主體性,卻同時剝除了過往支撐人們活下去的前現代意義與願景。我們的世界逐漸變得「數值清晰」,文明的保守性取代了冒險的樂趣。人類的專業知識總額得到指數性的積累,卻更加侷限在自己的圈圈。
量子計算,這個聽起來有點科幻的技術,正逐漸成為現實,而且它有可能徹底改變我們處理信息的方式。
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網
Thumbnail
精彩內容請點擊觀看:宇宙的終極之謎:科學家眼中的上帝存在論證;希格斯玻色子的上帝粒子、量子糾纏、宇宙微調論、康托爾的數學無限論、哥德爾本體論的數學邏輯證明、阿奎那的神學五路證明 (youtube.com) 在浩瀚的宇宙間,人類自古以來便不斷追問一個永恆的問題:“萬物萬象的根源是什麼?”歷代哲學家
Thumbnail
孔恩在《科學革命的結構》描述了世界觀之所以改變,在於科學典範paradigms)間的移轉。科學隨著典範移轉,產生了新的信念、新的理論、新的方法與新的標準。從亞里斯多德、托勒密系統、牛頓物理學、愛因斯坦物理學及量子力學,世界觀便是隨著這些典範移轉而改變。但是,世界觀難道全權由科學典範所主宰嗎?
Thumbnail
科學是一種有系統性的知識體系,而哲學則會持續提問理論命題是否合理、實驗是否能完整說明理論想探討的範圍,而實驗是否可複製。典範的興起與跌落是必然的,而數據只是數據,具有可操弄性,必須用該理論是否合理和實用性來檢驗。
Thumbnail
哲學的思考方法為,一假設問題的提出,然後再藉由論證的方式證成一預設的概念,最後獲得一個解答、一個立場、一個理論。不管是哲學理論或科學理論,都共同面對一個問題─理論永遠只反映事實的某個片段而已;因為形成理論的過程,是一個將複雜問題「簡化」的過程。哲學方法有沒有可能反應真實的複雜呢?當哲學能夠反