大數據,大疑情

閱讀時間約 10 分鐘

大數據,大疑情

【Comment】

What is the point of free will, while the neuroscientists have discovered that our nerve system gets self- excited before we start to prceive things and to think?
What is the point of free will, if our moves, individually and collectively, could be precisely predicted by records made by us, by our friends and by our social class?
If the scientists proved that there is no such thing as free will, most of the knowledge, principles and morals we believe in would be meaningless. 
How are we going to interpret the big question of “to be or not to be,” if free will is proved non-existent?    revised on 20130616

什麼是自由意志?大腦生理學家也早發現,在人要開始察覺或思考之前,神經連結會先激動起來。什麼是自由意志?假使,個人與團體的行為可以被自己過去的、人際關係的以及集體的資料所預測?假使「證明」沒有自由意志,假使證明我們可以擁有全資料,我們所信仰的時代與體制,將會被顛覆。政治思想是一個,統計學這個利用不完整資料進行推估的學問是另外一個。接下來,就是對價值與存在的質疑了。

 

大數據如何顛覆我們的行為?◎紐約時報(2013.06.15)http://cn.nytimes.com/business/20130615/cc15shibeichen/zh-hant/

還在為搞不清什麼是大數據而煩惱?讀讀《大數據時代——生活、工作與思維的大變革》(浙江人民出版社,2012年版。英文名:Big Data: A Revolution That Will Transform How We Live, Work, and Think)吧,這本書足以讓人長舒一口氣,作者舍恩伯格(Viktor Mayer-Schönberger)對大數據的定義一點都不玄乎。他在書中給出的定義是,所謂大數據(Big Data),就是大量的數據;它的反義詞小數據(Small Data)的定義也同樣簡單,即很少很少的數據。

至於為何要了解這個概念,大約從2009年開始,「大數據」就成為了互聯網信息技術行業的流行詞彙,無論是手機、平板電腦還是各種設備的數據傳感器,以及物聯網、雲計算、移動互聯網這些概念都與大數據有關。擅於發明各種科技名詞的中國IT評論人對什麼是大數據,幾乎每個人都有一套自己的說法,這往往讓門外漢如墜五里霧中。因此,舍恩伯格這種平易近人的介紹,無疑會消除很多人對大數據的畏懼。

相比舍恩伯格另一本談論大數據的書刪除:大數據取捨之道,《大數據時代》是更好的入門書籍。本書在什麼是大數據、大數據有怎樣的典型特徵、大數據的實際應用以及大數據發展未來的隱憂等關鍵問題上,都通過案例做了深入淺出的解釋。

大數據被認為是重新發現和認知這個世界的新型分析工具,通過收集和處理大規模數據,人們認識和探索世界的方式乃至思維模式都可能因之改變,以往因受限於工具而採用的抽樣調查、再對有限數據進行分析的方法也需要革新。既有方式的顛覆而新的規則尚未建立,世界也總要為此付出些代價。比如隱私將比以前更為暴露。這是否是人們樂見的?

它到底會如何改變這個世界?舍恩伯格在書中舉了亞馬遜的例子,早期亞馬遜僱傭了一群書評家為讀者薦書,後來發現通過算法,即集合一群對圖書質量的判斷能力遠不如專業人士的普通讀者的口味而推出的書單,經過分析並將不同的書單按用戶的社交網絡進行推送,卻能帶來更多的購買人群。於是,亞馬遜就把書評家們都解僱了。這就是「大數據」的應用。

預測是大數據最大的用途之一。它不僅可以像亞馬遜做的那樣,為用戶提供書單。 它也可以預測機票價格走勢,為自費旅遊者省錢;還能預測交通擁堵情況,幫助人們選擇更好的時段和路線節省出行時間。《麻省理工科技創業》(MIT Technology Review)報道說,英國伯明翰大學(University of Birmingham)的研究團隊甚至開發出一種算法,可以精確預測人們在一天內將要去哪裡,平均誤差僅為20米。而傳統的預測算法預測人們出行的平均誤差高達1000米。

這又是如何做到的?這個算法通過追蹤用戶手機上的個人過往行為模式數據,以及用戶手機裡的社交關係,能預測這個人在24小時之內會去哪裡;傳統的預測方法僅通過用戶個人行為模式進行預測,但人們也會臨時變更路線。當然,新型算法需要收集和分析大量個人信息。

信息數字化的迅速發展,則使得這種新型的數據分析方式變得可行。美國互聯網數據中心(Internet Data Center)指出,2000年前後,以數字化形式存儲的數據僅佔全球數據量的四分之一;而到了2007年時,90%以上數據是數字化數據,剩下不到10%是存儲在報紙、CD等介質上的模擬數據。由於數據化數據在複製和傳播中不會出現信息失真、噪音疊加等問題,再加上不斷廉價化的存儲手段,以及同步提高的計算能力,大量以前無法處理的數據,有了分析、解讀它們的可能。

模擬信息在複製和傳播過程中會出現信息失真、噪音疊加,比如一張紙連續複印三次之後,噪點越來越多、字跡越來越模糊;一盤音樂磁帶連續翻錄多次之後,令人厭煩的「嗞嗞」聲越來越大。因此信息收集、複製、存儲以及分析的成本就極為高昂,所以只能收集極少量的數據進行分析。統計學的發明就是為了來應對這種不足,通過對少量數據的分析,去推導、證實重大發現。

「大數據」時代的到來,將顛覆人們現有的做事邏輯。以往一般都是先想好目的,再去獲取相應的信息;而到了「大數據」時代,思維方式就變成了先儘可能多地佔有信息,遇到問題時從這海量信息中去「挖掘」解決方案。這兩者的區別就像普通相機與光場相機(light field)的區別,據美國科技博客網站Venturebeat的報道,2012年3月,美國硅谷創業公司Lytro開發的光場相機正式出貨。與普通相機不同,光場相機可以在拍攝完照片之後再對焦。在拍攝時,光場相機先記錄鏡頭範圍內所有的光,具體生成的照片聚焦在什麼位置,可以在拍攝完成之後根據需要再決定。

但這種變革也勢必帶來動蕩。由於自己多年積累被算法取代的憤怒,那些被亞馬遜解僱的書評家抱怨說:(通過算法推薦書單)那種感覺就像你和一群腦殘在一起逛書店。大數據時代的信息質量特性的確會越來越「腦殘化」:因為它強調數據量的多和雜,而非小數據時代的少而精;分析數據時放棄因果關係,而強調相關關係;它放棄知其所以然(為什麼),只需知其然(是什麼)就可以了。豆瓣閱讀為什麼給你推薦《中國合伙人》?可能僅僅是你的朋友最近點了「想看」或「看過」;新浪微博的推薦邏輯也如此。如果你有很多朋友喜歡同一個事物,那麼你喜歡這個事物的概率也會大一些。

這只是「大數據」可能導致的變化中的一個,對隱私的侵害無可避免成為大數據這把雙刃劍最明顯的負面作用。舍恩伯格在書中指出,「大數據」將顛覆現有的隱私保護法以個人為中心的立法基礎。未來在個人數據採集與數據授權上,需要有新的隱私保護方案。無論亞馬遜憑藉算法給出書單,或者伯明翰大學預測會去哪裡的新型算法,前提都是讓渡自己的隱私信息。這意味着在大數據時代,人們將面臨嚴峻的隱私問題。而現有的信息管理方式、隱私保護措施屆時都將不再適用

現在,數據採集者需要告知數據提供者其採集的數據用途為何,也必須在收集工作開始之前徵得個人的同意,但是這並不意味着重視隱私保護的個人就能高枕無憂了。以谷歌街景項目(Google Street View)為例,谷歌採集了街道上的幾乎全部信息,如果有某人不同意其私人信息顯示在谷歌街景中,谷歌會將該信息模糊化處理。然而這往往會使隱私更為突出:當其他人的信息都呈現在街景圖中時,「馬賽克」(模糊化處理)的部分反倒成了焦點。在大數據時代,即便數據採集者一開始就採集行為本身和數據應用方向行使了告知義務,但許多公司採集用戶數據時的目的與最後使用的目的往往不同,而且數據的價值不僅僅局限於它的基本用途,更多在於它的二次甚至多次利用。在大數據信息收集和利用日益增長的鏈條上,增添了信息被收集者濫用或被黑客侵入而盜用的風險。以上種種,都為隱私保護帶來了挑戰。

在大數據時代,無處不在的電腦、平板、手機上的攝像頭以及安裝在建築物上或是交通信號燈上用於安保作用的監視攝像頭,就像是大大小小的攝像機時時刻刻地對準每一個人。2007年,英國報紙London Evening Standard的一篇題為《喬治·奧威爾,老大哥在監視你的房子》(George Orwell, Big Brother is watching your house)的報道指出,攝像頭和電腦正在監視人們的一舉一動,就像奧威爾在小說《1984》中描述的那個社會,每個人都被老大哥注視着。上述報道指出,就在奧威爾一直居住到去世的倫敦公寓外,在方圓200碼(約合182.88米)的範圍內,有32台攝像機。 如果奧威爾生活在現在,他會做何感想?

 

 

    留言0
    查看全部
    avatar-img
    發表第一個留言支持創作者!
    你可能也想看
    Google News 追蹤
    Thumbnail
    這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
    Thumbnail
    這篇文章介紹了宜蘭冬山鄉的鄉聚冬山民宿,提供了民宿的設施和服務。文章中詳細描述了房間和民宿的特色,並提供了聯繫方式和社群資訊。
    Thumbnail
    這是一本關於美國大聯盟奧克蘭運動家隊的總經理與助理,利用大數據進行球員挑選的故事。書中揭示了棒球統計對球員挑選和球隊經營的重要性,呈現了大數據時代的棒球故事。
    Thumbnail
    在交易千萬別見樹不見林 中示範如何在同一張圖表上加入不同週期的行情走勢,本篇將對MultiCharts初體驗-函式撰寫、MultiCharts初體驗-訊號撰寫 的程式進行改寫,讓程式可以讀取到多週期的K線資料。 在MC中可以用Data1、Data2、⋯⋯、Data99的指定方式,來存取圖表中的數列
    Thumbnail
    領先的大數據公司Databricks最近以驚人的13億美元收購了MosaicML,開創了生成式人工智能領域的新局面。這筆收購成為今年生成式AI領域最大的交易。MosaicML是一家規模較小的初創公司,擁有62名員工,專注於生成式AI模型。收購後,MosaicML的估值從之前的2.2億美元猛增了近六倍
    Thumbnail
    【葉郎每日讀報】20230501 超級瑪利歐兄弟以北美5.32億美元票房和海外市場4.9億票房的成績,正式突破10億關卡,成為2023年最賣座電影。該片也是COVID-19疫情以來第五部票房突破10億美元的電影。另外4部分別是蜘蛛人:無家日、捍衛戰士:獨行俠、侏羅紀世界:統霸天下和阿凡達:水之道。h
    Thumbnail
    推薦度:★★★☆適合閱讀的劇本未必適合演出,討好評審的劇本未必討好觀眾。
    Thumbnail
    🌿「貪婪色慾妒忌暴力傲慢暴食懶惰女人,八女聯合上演愛到殺死你的黑色喜劇」 來賓介紹👏👏👏 -- 周安迪:八美圖謀殺現場的導演?😱 -- 劉語芊:謀殺的八美嫌疑犯之一?😱 🏹《劇場狂粉的日常》每週準時與您在空中相會~(*๓´╰╯`๓)♡
    Thumbnail
    Algo Trading,即Algorithmic Trading(演算法交易),會根據預設的算法,進行自動化的投資和買賣行為,現時不少的投資市場包括股票、金融衍生工具、外匯、加密電子貨幣等等都有應用Algo Trading。 【個人網站】 【加密貨幣】 【冷錢包推薦】 【被動收入】 【股票】
    Thumbnail
    「先將設立的理想型條件列出來,然後用電腦分析、引用大數據配對、清查身家背景,最後再簽訂婚前協議,進而快速鎖定「需要」的而非「想要」的伴侶,是避免浪費彼此時間的相親模式。」 這是《戀愛是科學》女主角顏霏主張的戀愛SOP,在劇中 ,她開設一間名為「戀愛科學婚姻仲介所」的公司,藉由大數據的分析...
    Thumbnail
    這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
    Thumbnail
    這篇文章介紹了宜蘭冬山鄉的鄉聚冬山民宿,提供了民宿的設施和服務。文章中詳細描述了房間和民宿的特色,並提供了聯繫方式和社群資訊。
    Thumbnail
    這是一本關於美國大聯盟奧克蘭運動家隊的總經理與助理,利用大數據進行球員挑選的故事。書中揭示了棒球統計對球員挑選和球隊經營的重要性,呈現了大數據時代的棒球故事。
    Thumbnail
    在交易千萬別見樹不見林 中示範如何在同一張圖表上加入不同週期的行情走勢,本篇將對MultiCharts初體驗-函式撰寫、MultiCharts初體驗-訊號撰寫 的程式進行改寫,讓程式可以讀取到多週期的K線資料。 在MC中可以用Data1、Data2、⋯⋯、Data99的指定方式,來存取圖表中的數列
    Thumbnail
    領先的大數據公司Databricks最近以驚人的13億美元收購了MosaicML,開創了生成式人工智能領域的新局面。這筆收購成為今年生成式AI領域最大的交易。MosaicML是一家規模較小的初創公司,擁有62名員工,專注於生成式AI模型。收購後,MosaicML的估值從之前的2.2億美元猛增了近六倍
    Thumbnail
    【葉郎每日讀報】20230501 超級瑪利歐兄弟以北美5.32億美元票房和海外市場4.9億票房的成績,正式突破10億關卡,成為2023年最賣座電影。該片也是COVID-19疫情以來第五部票房突破10億美元的電影。另外4部分別是蜘蛛人:無家日、捍衛戰士:獨行俠、侏羅紀世界:統霸天下和阿凡達:水之道。h
    Thumbnail
    推薦度:★★★☆適合閱讀的劇本未必適合演出,討好評審的劇本未必討好觀眾。
    Thumbnail
    🌿「貪婪色慾妒忌暴力傲慢暴食懶惰女人,八女聯合上演愛到殺死你的黑色喜劇」 來賓介紹👏👏👏 -- 周安迪:八美圖謀殺現場的導演?😱 -- 劉語芊:謀殺的八美嫌疑犯之一?😱 🏹《劇場狂粉的日常》每週準時與您在空中相會~(*๓´╰╯`๓)♡
    Thumbnail
    Algo Trading,即Algorithmic Trading(演算法交易),會根據預設的算法,進行自動化的投資和買賣行為,現時不少的投資市場包括股票、金融衍生工具、外匯、加密電子貨幣等等都有應用Algo Trading。 【個人網站】 【加密貨幣】 【冷錢包推薦】 【被動收入】 【股票】
    Thumbnail
    「先將設立的理想型條件列出來,然後用電腦分析、引用大數據配對、清查身家背景,最後再簽訂婚前協議,進而快速鎖定「需要」的而非「想要」的伴侶,是避免浪費彼此時間的相親模式。」 這是《戀愛是科學》女主角顏霏主張的戀愛SOP,在劇中 ,她開設一間名為「戀愛科學婚姻仲介所」的公司,藉由大數據的分析...