「垃圾進,垃圾出」在人工智慧時代的新涵義/葉光釗

閱讀時間約 5 分鐘

「垃圾進,垃圾出」這句話,搞IT的人應該沒有人沒聽過,也都瞭解是甚麼意思;但這句話如果拿到現在最熱門的「資料分析」或「AI應用」的場景中,說法卻必須做一點調整,怎麼說呢?

根據我自己的研發經驗,需要使用資料或數據做分析的問題可以分成兩大類(聽起來好像繞口令):
  • 第一類:「我們知道我們不知道」的問題
  • 第二類:「我們不知道我們不知道」的問題

「我們知道我們不知道」

第一類是比較容易瞭解、也是一般常面臨解決的。
簡單來說,就是我們對問題本身已經有了一個假設、甚至已經有可以運作的模型,只是對其中的一些參數還不知道;此時蒐集資料的目的,就是要來決定這些參數。
大家熟知的「A/B測試」,就是很常用的工具:對已經存在的兩組(或多組)介面設計,如果想知道哪一種比較受歡迎(設計參數),就把設計發給兩組使用者群,藉由蒐集使用的頻率,或是直接進行意見調查,就可以決定哪一組設計比較好。
如果蒐集進來的數據有問題,推論出來的參數就是錯的。
這個說明當然經過簡化再簡化,只是用來讓大家瞭解問題的性質。
資料的正確性,在這一類的問題自然具有決定性的關鍵;如果蒐集進來的數據有問題,推論出來的參數就是錯的。
然而,第二類的問題就沒有這麼直接了當、而且也比較稀少;但是一旦解決,卻是價值比較大的分析類型。

「我們不知道我們不知道」

這一種型態的問題,解決方案之所以那麼稀少,主要還是因為發現問題所在的運氣成分非常重,更不要說成功地解出問題。
不過,回顧這些相關的案例就會知道,它們被發現的「觸發點」還是有許多相似之處:多半是在解決第一類問題的時候,陰錯陽差找到一些令人驚訝的事實,然後被有觀念的人鍥而不捨地繼續鑽研。
在筆者之前的〈從Office精簡版的血淚,看軟體功能的「長尾理論」〉一文中,就曾經提到過:因為測試Excel大檔的功能,而無意中發現了Office的長尾現象,就是其中一個例子。
在這裡舉另一個例子,讓大家進一步瞭解這種現象。
自Windows XP引進Watson的遙測資料蒐集功能之後,如何儲存並分析這些資料成為一個很大的挑戰;因為,它的規模其實超乎原來微軟的預期。

兩類分析資料

在使用者同意傳回資訊的前提之下,回傳的資料大致分成兩類:
  1. 第一類是前一篇所說明的、事先計畫好的遙測資料;
  2. 另一類(資料量其實超過六成以上)是當系統中的應用程式發生記憶體毀損、或是某一段程式執行同一段碼過久時,系統就會發出一個對話方塊,詢問使用者要不要回傳記憶體的內容下載(memory dump)給微軟,以便做進一步的分析。
我記得有一個數據,是即使多數的使用者都持保守態度、不願傳回的情況下,微軟還是每天會收到超過一百萬次回傳。那個時候,我們都笑稱那些資料是「應用程式垃圾」。
但仔細想一下就能瞭解:如果這些回傳是由微軟自己寫的、或是友商的應用程式所產生的還好,的確可以回溯問題的發生點、找出先前沒有找到的臭蟲。
但實際的情況是,這些回傳有八成以上是微軟「不認識」的應用所製造出來的。這讓毀損程式碼的分析,變成一種不可能的任務;微軟再有錢,也找不到那麼多人來做反組譯和追蹤(trace)錯誤所在的工作。
也因為如此,早期有許多收回的資料其實跟廢物沒兩樣。

從分類中挖黃金

不過,微軟究竟是對資料具有極大興趣的公司,也不想因為很難做就放棄;因此還是投入了很多工程師和研究人員,試著將這些回傳資料做自動分類。
有些分類是從毀損點的程式碼模式,有些則是從毀損時堆疊的資料內容分析,看看能不能找出類似的模式(pattern)。讓我印象很深刻的是,有一個團隊甚至將機器碼和資料在記憶體中的分布做成圖型,試著透過電腦視覺的方法來找出模式。
其中一個很有價值的發現,是一位工程師在檢視有問題的下載資料段內容時,發現了一連串的IP位址;剛好這位工程師之前在防毒產品團隊待過,懷疑這些IP是「殭屍網路」的一部份。
經過反組譯處理,工程師確認有一段的確是惡意程式的一部分;於是這位工程師大膽假設,製作惡意病毒的人跟一般開發者一樣,寫出來的程式也會有臭蟲、也會當掉。
好玩的是,即使寫惡意軟體的人刻意在檔案中對IP特別加密,以避免被防毒程式掃到,但它在記憶體中一定會回復成明碼形式,否則程式無法使用。所以,如果在資料中找到殭屍網路的IP,就有九成九的可能是個惡意程式,值得進一步追查。
這個假設一出來,有好幾位工程師持續去驗證,果然找出許多已知的惡意程式的片段。之後公司發現這有非常大的價值,甚至還與執法和國安單位合作,成立了獨立的產品組,對大型企業或公務單位提供分析惡意程式的服務,成為超高利潤的業務。

結語

簡言之,這類問題的解決核心,在於能不能從「垃圾」裡找到黃金;而對於能從中挖出黃金的垃圾,我們還能稱這些是垃圾嗎?
我雖然不是資料科學和AI的專家,但看得出對於有能力掌握資料的高科技公司而言,這些方法論是很有價值的。之前的這些發現,都必須仰賴人們不屈不撓的對一堆垃圾進行挖掘和測試,而且還有很多運氣成分。
如果這些過程能用自動化的程序和電腦來取代,結果會不會更好?
在新的時代中,資料是不是垃圾,恐怕不會是人類說了算。
為什麼會看到廣告
avatar-img
1.4K會員
2.0K內容數
為您送上頂尖作者的最新管理與科技產業思維。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
對於自由工作者來說,最大的優勢之一在於可以隨時「開除」顧客;因為工作能量有限,所以必須先開除不適合的顧客,才能再容納更好的顧客。但這整個過程並不是隨性的,而是經過思考的策略。
在前篇〈人才的成本:微軟在台灣設立研發中心的真正原因〉一文中,作者說明了台灣被微軟等大公司選中、設立研發中心的主要原因;本文則繼續從企業與產品發展的角度,討論企業研發中心遭遇的問題、現況、轉型求生的方式、以及對人才的要求,帶您一窺新聞背後的種種考量。
台灣大哥大在今年四月上任的總經理,是活躍於新創圈、創立知名創投AppWorks,但從未有過任何電信業背景的林之晨先生。握有實權的富邦集團董事長蔡明忠這一手棋,引發了許多聯想:為什麼會是林先生?
跨界才能創新,而從跨界觀點分析成功商業模式、以製造業角度解讀眾所熟悉的餐飲服務,或許可以激發更多創意。而同樣的觀察方法,也可以跨進其他服務業,碰撞出更多火花、創造出新的商機。
許多產業觀察者都認定,包括智慧手錶、手環等產品的「穿戴式裝置」將會是下一個兵家必爭之地,而Apple、小米等大公司也早已在這個目前還小的市場中站穩腳步。Google當然也不會坐視,但先前併購Fossil團隊之後,再買Fitbit的真正原因與目的究竟是什麼?
對於產品經理而言,產品路線圖是重要的溝通工具、也是讓產品發展得以步上正軌的指引。然而路線圖的發展會受到許多因素的影響;除了產品經理本身的能力、以及對市場的瞭解之外,本文分析的7個要件也非常重要。
對於自由工作者來說,最大的優勢之一在於可以隨時「開除」顧客;因為工作能量有限,所以必須先開除不適合的顧客,才能再容納更好的顧客。但這整個過程並不是隨性的,而是經過思考的策略。
在前篇〈人才的成本:微軟在台灣設立研發中心的真正原因〉一文中,作者說明了台灣被微軟等大公司選中、設立研發中心的主要原因;本文則繼續從企業與產品發展的角度,討論企業研發中心遭遇的問題、現況、轉型求生的方式、以及對人才的要求,帶您一窺新聞背後的種種考量。
台灣大哥大在今年四月上任的總經理,是活躍於新創圈、創立知名創投AppWorks,但從未有過任何電信業背景的林之晨先生。握有實權的富邦集團董事長蔡明忠這一手棋,引發了許多聯想:為什麼會是林先生?
跨界才能創新,而從跨界觀點分析成功商業模式、以製造業角度解讀眾所熟悉的餐飲服務,或許可以激發更多創意。而同樣的觀察方法,也可以跨進其他服務業,碰撞出更多火花、創造出新的商機。
許多產業觀察者都認定,包括智慧手錶、手環等產品的「穿戴式裝置」將會是下一個兵家必爭之地,而Apple、小米等大公司也早已在這個目前還小的市場中站穩腳步。Google當然也不會坐視,但先前併購Fossil團隊之後,再買Fitbit的真正原因與目的究竟是什麼?
對於產品經理而言,產品路線圖是重要的溝通工具、也是讓產品發展得以步上正軌的指引。然而路線圖的發展會受到許多因素的影響;除了產品經理本身的能力、以及對市場的瞭解之外,本文分析的7個要件也非常重要。
你可能也想看
Google News 追蹤
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
社群媒體會導致「過濾氣泡」和「同溫層效應」。也就是說,這只會讓用戶只看到符合其既有觀點和興趣的內容,從而錯過多樣化的信息。 如果要做出更妥善的市場判斷,除了需要在即時的數據和長期的品牌價值之間找到平衡,也要提醒大家要及時『抽身』回到真實的世界中,才能避免陷入數據迷戀和演算法偏見。
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
Thumbnail
實際就業後,會發現收集與分析需求,通常都不是工程師在做,會有另一群人,以非工程的角度收集及分析需求,然後在開發過程中蹦出不同的火花,於是很好奇另一群人的想法是什麼?我不敢說這本書能完全代表另一群人的想法,但確實能夠得到很多有用的思維。推薦給所有的軟體工程師。
Thumbnail
本文介紹瞭如何使用 Excel VBA 解決規劃求解問題的實際案例,並展示了「回溯算法」(Backtracking) 的應用。通過此案例,專業人士可以更好地理解並利用數據,進而在商業環境中做出更精確的決策。
Thumbnail
本文探討了在使用 pandas 處理資料時應注意的幾個關鍵點,以及如何減少因資料型態問題而產生的錯誤,確保資料的原始意義得以保留。主要包括Pandas 資料處理深入解析,尋找CSV之外的數據儲存方案,以及優化資料處理策略。
Thumbnail
而這也是我所認知的,那些前輩或長輩們的價值所在。許多的事情和經歷,真的需要時間的累積。有沒有經體驗過、是否曾經走過哪一遭,真的很樣。比如說,但就看懂「局」這件事而言,除了不會看走眼的視力、閱讀空氣的嗅覺與判斷能力之外,還關乎人生經驗的累積。
Thumbnail
資料的統合 在程式設計中,其他人通常關心是否注意到執行的細節。作為程式設計師,主要應該關心的是程式的表現,但往往忽略了很多細節,這些細節可以決定程式的好壞。程式的好壞很大程度上取決於資料的統合,也就是資料是否被正規化。 不同類型的資料在系統中呈現一致 正規化可能對一些人來說聽起來很抽象,有些人
Thumbnail
有別於試圖直接從數據中找出洞察,商業分析的精髓在於先思考 so what——從定義目標開始,做出商業決策的雛形後,才用數據去支持假說。這篇文章介紹 A/B 測試的技巧,以及摘櫻桃的應用,解說數據篩選的操作、摘櫻桃的好處,以及企業案例:數位轉型後的報社,亞馬遜CEO貝佐斯改造百年郵報。
Thumbnail
在企業IT環境,系統和數據的備份的重要性相信是不用解說,亦不用懷疑的。 但很時時候,企業忽略的並不是備份,而是Drill test的重要性。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
社群媒體會導致「過濾氣泡」和「同溫層效應」。也就是說,這只會讓用戶只看到符合其既有觀點和興趣的內容,從而錯過多樣化的信息。 如果要做出更妥善的市場判斷,除了需要在即時的數據和長期的品牌價值之間找到平衡,也要提醒大家要及時『抽身』回到真實的世界中,才能避免陷入數據迷戀和演算法偏見。
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
Thumbnail
實際就業後,會發現收集與分析需求,通常都不是工程師在做,會有另一群人,以非工程的角度收集及分析需求,然後在開發過程中蹦出不同的火花,於是很好奇另一群人的想法是什麼?我不敢說這本書能完全代表另一群人的想法,但確實能夠得到很多有用的思維。推薦給所有的軟體工程師。
Thumbnail
本文介紹瞭如何使用 Excel VBA 解決規劃求解問題的實際案例,並展示了「回溯算法」(Backtracking) 的應用。通過此案例,專業人士可以更好地理解並利用數據,進而在商業環境中做出更精確的決策。
Thumbnail
本文探討了在使用 pandas 處理資料時應注意的幾個關鍵點,以及如何減少因資料型態問題而產生的錯誤,確保資料的原始意義得以保留。主要包括Pandas 資料處理深入解析,尋找CSV之外的數據儲存方案,以及優化資料處理策略。
Thumbnail
而這也是我所認知的,那些前輩或長輩們的價值所在。許多的事情和經歷,真的需要時間的累積。有沒有經體驗過、是否曾經走過哪一遭,真的很樣。比如說,但就看懂「局」這件事而言,除了不會看走眼的視力、閱讀空氣的嗅覺與判斷能力之外,還關乎人生經驗的累積。
Thumbnail
資料的統合 在程式設計中,其他人通常關心是否注意到執行的細節。作為程式設計師,主要應該關心的是程式的表現,但往往忽略了很多細節,這些細節可以決定程式的好壞。程式的好壞很大程度上取決於資料的統合,也就是資料是否被正規化。 不同類型的資料在系統中呈現一致 正規化可能對一些人來說聽起來很抽象,有些人
Thumbnail
有別於試圖直接從數據中找出洞察,商業分析的精髓在於先思考 so what——從定義目標開始,做出商業決策的雛形後,才用數據去支持假說。這篇文章介紹 A/B 測試的技巧,以及摘櫻桃的應用,解說數據篩選的操作、摘櫻桃的好處,以及企業案例:數位轉型後的報社,亞馬遜CEO貝佐斯改造百年郵報。
Thumbnail
在企業IT環境,系統和數據的備份的重要性相信是不用解說,亦不用懷疑的。 但很時時候,企業忽略的並不是備份,而是Drill test的重要性。