談到大數據,不得不說4V特性。
巨量性(Volume):
由於使用無線網路、電腦、社群、物聯網等方式進行網路訊息的交換,逐漸將我們所處的物理世界轉變成數位化,任何動作,諸如彈指間的滑鼠點擊、連接網路時間、風起、雲湧,都將形成電子訊號傳遞與儲存,所得到的數據量均要以PB甚至以上,作為計量單位。
即時性(Velocity):經由巨量性的特性,蒐集的來源來自物理世界彈指間的各項變動,而數據資料的產出是隨時且快速連續的,因此在蒐集上、處理上,均有其即時性必須立即進行儲存與分析,否則將失去其所帶來的重要性或意義。
多樣性(Variety):誠如前面所說的,蒐集的來源包含所處物理世界的各項領域,圖形、電子訊息、文字、影音、網頁等,相較以往的結構化資料諸如資料庫、文件等,大數據的資料中,更多是半結構化的E-mail及非結構化的影像、圖片等訊息。而這些更增加在分析及處理上的難度。
不確定性/價值(Veracity or Value):各項來源所產生的資料流,其中的訊息的正確性、真實性等有待去區分;而另一方面,由於龐大數據資料分析後產生的利益與價值,也是其特性。
接著,一般會利用以下幾個步驟,將DATA轉換成知識。
採集:利用物聯網的感測器、搜尋網頁及資料庫登入查找等方式蒐集使用者習慣或是所處環境中的物理變化。
導入與預處理:將蒐集到的資料流導入分散式資料庫,進行初步的資料篩選與處理。
統計與分析:對於導入後的資料進行分類與分析,而分類的彙整是決定後面深入探鑽時的方向。
挖掘:利用演算法,對於整理後的數據進行趨勢的預測。
在醫療界的實際案例有很多,例如「犯錯是人類的天性!」北醫團隊取經健保資料庫,用AI把關問題處方箋(網址來源:https://www.bnext.com.tw/article/48869/learned-from-the-health-insurance-database-tmu-used-ai-to-check-prescriptions)。