「垃圾進,垃圾出」在人工智慧時代的新涵義/葉光釗

閱讀時間約 5 分鐘

「垃圾進,垃圾出」這句話,搞IT的人應該沒有人沒聽過,也都瞭解是甚麼意思;但這句話如果拿到現在最熱門的「資料分析」或「AI應用」的場景中,說法卻必須做一點調整,怎麼說呢?

根據我自己的研發經驗,需要使用資料或數據做分析的問題可以分成兩大類(聽起來好像繞口令):
  • 第一類:「我們知道我們不知道」的問題
  • 第二類:「我們不知道我們不知道」的問題

「我們知道我們不知道」

第一類是比較容易瞭解、也是一般常面臨解決的。
簡單來說,就是我們對問題本身已經有了一個假設、甚至已經有可以運作的模型,只是對其中的一些參數還不知道;此時蒐集資料的目的,就是要來決定這些參數。
大家熟知的「A/B測試」,就是很常用的工具:對已經存在的兩組(或多組)介面設計,如果想知道哪一種比較受歡迎(設計參數),就把設計發給兩組使用者群,藉由蒐集使用的頻率,或是直接進行意見調查,就可以決定哪一組設計比較好。
如果蒐集進來的數據有問題,推論出來的參數就是錯的。
這個說明當然經過簡化再簡化,只是用來讓大家瞭解問題的性質。
資料的正確性,在這一類的問題自然具有決定性的關鍵;如果蒐集進來的數據有問題,推論出來的參數就是錯的。
然而,第二類的問題就沒有這麼直接了當、而且也比較稀少;但是一旦解決,卻是價值比較大的分析類型。

「我們不知道我們不知道」

這一種型態的問題,解決方案之所以那麼稀少,主要還是因為發現問題所在的運氣成分非常重,更不要說成功地解出問題。
不過,回顧這些相關的案例就會知道,它們被發現的「觸發點」還是有許多相似之處:多半是在解決第一類問題的時候,陰錯陽差找到一些令人驚訝的事實,然後被有觀念的人鍥而不捨地繼續鑽研。
在筆者之前的〈從Office精簡版的血淚,看軟體功能的「長尾理論」〉一文中,就曾經提到過:因為測試Excel大檔的功能,而無意中發現了Office的長尾現象,就是其中一個例子。
在這裡舉另一個例子,讓大家進一步瞭解這種現象。
自Windows XP引進Watson的遙測資料蒐集功能之後,如何儲存並分析這些資料成為一個很大的挑戰;因為,它的規模其實超乎原來微軟的預期。

兩類分析資料

在使用者同意傳回資訊的前提之下,回傳的資料大致分成兩類:
  1. 第一類是前一篇所說明的、事先計畫好的遙測資料;
  2. 另一類(資料量其實超過六成以上)是當系統中的應用程式發生記憶體毀損、或是某一段程式執行同一段碼過久時,系統就會發出一個對話方塊,詢問使用者要不要回傳記憶體的內容下載(memory dump)給微軟,以便做進一步的分析。
我記得有一個數據,是即使多數的使用者都持保守態度、不願傳回的情況下,微軟還是每天會收到超過一百萬次回傳。那個時候,我們都笑稱那些資料是「應用程式垃圾」。
但仔細想一下就能瞭解:如果這些回傳是由微軟自己寫的、或是友商的應用程式所產生的還好,的確可以回溯問題的發生點、找出先前沒有找到的臭蟲。
但實際的情況是,這些回傳有八成以上是微軟「不認識」的應用所製造出來的。這讓毀損程式碼的分析,變成一種不可能的任務;微軟再有錢,也找不到那麼多人來做反組譯和追蹤(trace)錯誤所在的工作。
也因為如此,早期有許多收回的資料其實跟廢物沒兩樣。

從分類中挖黃金

不過,微軟究竟是對資料具有極大興趣的公司,也不想因為很難做就放棄;因此還是投入了很多工程師和研究人員,試著將這些回傳資料做自動分類。
有些分類是從毀損點的程式碼模式,有些則是從毀損時堆疊的資料內容分析,看看能不能找出類似的模式(pattern)。讓我印象很深刻的是,有一個團隊甚至將機器碼和資料在記憶體中的分布做成圖型,試著透過電腦視覺的方法來找出模式。
其中一個很有價值的發現,是一位工程師在檢視有問題的下載資料段內容時,發現了一連串的IP位址;剛好這位工程師之前在防毒產品團隊待過,懷疑這些IP是「殭屍網路」的一部份。
經過反組譯處理,工程師確認有一段的確是惡意程式的一部分;於是這位工程師大膽假設,製作惡意病毒的人跟一般開發者一樣,寫出來的程式也會有臭蟲、也會當掉。
好玩的是,即使寫惡意軟體的人刻意在檔案中對IP特別加密,以避免被防毒程式掃到,但它在記憶體中一定會回復成明碼形式,否則程式無法使用。所以,如果在資料中找到殭屍網路的IP,就有九成九的可能是個惡意程式,值得進一步追查。
這個假設一出來,有好幾位工程師持續去驗證,果然找出許多已知的惡意程式的片段。之後公司發現這有非常大的價值,甚至還與執法和國安單位合作,成立了獨立的產品組,對大型企業或公務單位提供分析惡意程式的服務,成為超高利潤的業務。

結語

簡言之,這類問題的解決核心,在於能不能從「垃圾」裡找到黃金;而對於能從中挖出黃金的垃圾,我們還能稱這些是垃圾嗎?
我雖然不是資料科學和AI的專家,但看得出對於有能力掌握資料的高科技公司而言,這些方法論是很有價值的。之前的這些發現,都必須仰賴人們不屈不撓的對一堆垃圾進行挖掘和測試,而且還有很多運氣成分。
如果這些過程能用自動化的程序和電腦來取代,結果會不會更好?
在新的時代中,資料是不是垃圾,恐怕不會是人類說了算。
為什麼會看到廣告
1.4K會員
2.0K內容數
為您送上頂尖作者的最新管理與科技產業思維。
留言0
查看全部
發表第一個留言支持創作者!
對於自由工作者來說,最大的優勢之一在於可以隨時「開除」顧客;因為工作能量有限,所以必須先開除不適合的顧客,才能再容納更好的顧客。但這整個過程並不是隨性的,而是經過思考的策略。
在前篇〈人才的成本:微軟在台灣設立研發中心的真正原因〉一文中,作者說明了台灣被微軟等大公司選中、設立研發中心的主要原因;本文則繼續從企業與產品發展的角度,討論企業研發中心遭遇的問題、現況、轉型求生的方式、以及對人才的要求,帶您一窺新聞背後的種種考量。
台灣大哥大在今年四月上任的總經理,是活躍於新創圈、創立知名創投AppWorks,但從未有過任何電信業背景的林之晨先生。握有實權的富邦集團董事長蔡明忠這一手棋,引發了許多聯想:為什麼會是林先生?
跨界才能創新,而從跨界觀點分析成功商業模式、以製造業角度解讀眾所熟悉的餐飲服務,或許可以激發更多創意。而同樣的觀察方法,也可以跨進其他服務業,碰撞出更多火花、創造出新的商機。
許多產業觀察者都認定,包括智慧手錶、手環等產品的「穿戴式裝置」將會是下一個兵家必爭之地,而Apple、小米等大公司也早已在這個目前還小的市場中站穩腳步。Google當然也不會坐視,但先前併購Fossil團隊之後,再買Fitbit的真正原因與目的究竟是什麼?
對於產品經理而言,產品路線圖是重要的溝通工具、也是讓產品發展得以步上正軌的指引。然而路線圖的發展會受到許多因素的影響;除了產品經理本身的能力、以及對市場的瞭解之外,本文分析的7個要件也非常重要。
對於自由工作者來說,最大的優勢之一在於可以隨時「開除」顧客;因為工作能量有限,所以必須先開除不適合的顧客,才能再容納更好的顧客。但這整個過程並不是隨性的,而是經過思考的策略。
在前篇〈人才的成本:微軟在台灣設立研發中心的真正原因〉一文中,作者說明了台灣被微軟等大公司選中、設立研發中心的主要原因;本文則繼續從企業與產品發展的角度,討論企業研發中心遭遇的問題、現況、轉型求生的方式、以及對人才的要求,帶您一窺新聞背後的種種考量。
台灣大哥大在今年四月上任的總經理,是活躍於新創圈、創立知名創投AppWorks,但從未有過任何電信業背景的林之晨先生。握有實權的富邦集團董事長蔡明忠這一手棋,引發了許多聯想:為什麼會是林先生?
跨界才能創新,而從跨界觀點分析成功商業模式、以製造業角度解讀眾所熟悉的餐飲服務,或許可以激發更多創意。而同樣的觀察方法,也可以跨進其他服務業,碰撞出更多火花、創造出新的商機。
許多產業觀察者都認定,包括智慧手錶、手環等產品的「穿戴式裝置」將會是下一個兵家必爭之地,而Apple、小米等大公司也早已在這個目前還小的市場中站穩腳步。Google當然也不會坐視,但先前併購Fossil團隊之後,再買Fitbit的真正原因與目的究竟是什麼?
對於產品經理而言,產品路線圖是重要的溝通工具、也是讓產品發展得以步上正軌的指引。然而路線圖的發展會受到許多因素的影響;除了產品經理本身的能力、以及對市場的瞭解之外,本文分析的7個要件也非常重要。
你可能也想看
Google News 追蹤
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
你曾經想過,每天大量製造出來的塑膠垃圾,後來都流到哪裡去?  垃圾們不會憑空消失,也不能直接拿來再次利用,這中間,需要經過許多道程序。 人們不要的塑料垃圾,被當成出口的商品以極為便宜的價格,出口各國,其中包含中國與台灣。
Thumbnail
澳洲的資源回收還在剛起步的階段,為了鼓勵和落實回收,澳洲所提供的回收獎勵金很高,雖然每個州的回收方式都不太相同,也不是每個州都有這樣的獎勵,但以我所在的新南威爾斯州舉例,每一個瓶子可以取得10 Cent的獎勵金,也就是一個瓶子大約台幣$2元上下,雖然聽起來好像是小錢,但是積少成多,也是很驚人。
Thumbnail
可能包含敏感內容
論說文章的構築需要在題幹、素材與切入角中進行完整的串聯,才能作出通情達理、脈絡暢通的篇章。只是單純羅列出龐大的作品擺出刺蝟的架式無法與他者互動;看似想揭起認知革命的人最終只會成為萬針輪插的針山沒能傳達─如何面對動畫的內容? 與其恐懼而抗拒,不如認識並加入─媒體識讀與創作的熱情,不正由此而來嗎?
Thumbnail
很後來的中秋節,家裡就不烤肉了,除了因為沒有人要收就會變成我的工作之外,最受不了的是每次烤完肉就會製造一堆垃圾,尤以跟親朋好友一起的時候,更是容易大量產出免洗餐盤、餐具,每每我要是忍不住murmur:「你們幹嘛就在家門前烤肉,還要用一堆免洗用品!」肯定是會遭來白眼或是「你環保你最高尚」的嘲諷!
Thumbnail
「你永遠不會好起來,只能一天天的過。這會是你每天醒來想到的第一件事,直到有一天,它變成你醒來後想到的第二件事。」我默默記下這個從每劇裡看來的哲理,一天天數日子。
Thumbnail
有些人每天看 YouTube 片段渡日,有些人每天做著對社會沒有大意義的工作。簡單來說,假如他們的工作明天突然消失,對他們或世界而言都沒有大影響。 他們稱他們的工作是 「bulls–t jobs」,即垃圾工作。
Thumbnail
<p>食物供需的經濟體系裡,唯一的連線就是杯水車薪的慈善組織,科技公司不可能花心思和人力去處理剩食的分配。所以即時重新分配剩餘食物的平台,就成了高科技、循環式經濟以及環保綠能結合下最自然的產物。</p>
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
你曾經想過,每天大量製造出來的塑膠垃圾,後來都流到哪裡去?  垃圾們不會憑空消失,也不能直接拿來再次利用,這中間,需要經過許多道程序。 人們不要的塑料垃圾,被當成出口的商品以極為便宜的價格,出口各國,其中包含中國與台灣。
Thumbnail
澳洲的資源回收還在剛起步的階段,為了鼓勵和落實回收,澳洲所提供的回收獎勵金很高,雖然每個州的回收方式都不太相同,也不是每個州都有這樣的獎勵,但以我所在的新南威爾斯州舉例,每一個瓶子可以取得10 Cent的獎勵金,也就是一個瓶子大約台幣$2元上下,雖然聽起來好像是小錢,但是積少成多,也是很驚人。
Thumbnail
可能包含敏感內容
論說文章的構築需要在題幹、素材與切入角中進行完整的串聯,才能作出通情達理、脈絡暢通的篇章。只是單純羅列出龐大的作品擺出刺蝟的架式無法與他者互動;看似想揭起認知革命的人最終只會成為萬針輪插的針山沒能傳達─如何面對動畫的內容? 與其恐懼而抗拒,不如認識並加入─媒體識讀與創作的熱情,不正由此而來嗎?
Thumbnail
很後來的中秋節,家裡就不烤肉了,除了因為沒有人要收就會變成我的工作之外,最受不了的是每次烤完肉就會製造一堆垃圾,尤以跟親朋好友一起的時候,更是容易大量產出免洗餐盤、餐具,每每我要是忍不住murmur:「你們幹嘛就在家門前烤肉,還要用一堆免洗用品!」肯定是會遭來白眼或是「你環保你最高尚」的嘲諷!
Thumbnail
「你永遠不會好起來,只能一天天的過。這會是你每天醒來想到的第一件事,直到有一天,它變成你醒來後想到的第二件事。」我默默記下這個從每劇裡看來的哲理,一天天數日子。
Thumbnail
有些人每天看 YouTube 片段渡日,有些人每天做著對社會沒有大意義的工作。簡單來說,假如他們的工作明天突然消失,對他們或世界而言都沒有大影響。 他們稱他們的工作是 「bulls–t jobs」,即垃圾工作。
Thumbnail
<p>食物供需的經濟體系裡,唯一的連線就是杯水車薪的慈善組織,科技公司不可能花心思和人力去處理剩食的分配。所以即時重新分配剩餘食物的平台,就成了高科技、循環式經濟以及環保綠能結合下最自然的產物。</p>