「垃圾進,垃圾出」在人工智慧時代的新涵義/葉光釗

閱讀時間約 5 分鐘

「垃圾進,垃圾出」這句話,搞IT的人應該沒有人沒聽過,也都瞭解是甚麼意思;但這句話如果拿到現在最熱門的「資料分析」或「AI應用」的場景中,說法卻必須做一點調整,怎麼說呢?

根據我自己的研發經驗,需要使用資料或數據做分析的問題可以分成兩大類(聽起來好像繞口令):
  • 第一類:「我們知道我們不知道」的問題
  • 第二類:「我們不知道我們不知道」的問題

「我們知道我們不知道」

第一類是比較容易瞭解、也是一般常面臨解決的。
簡單來說,就是我們對問題本身已經有了一個假設、甚至已經有可以運作的模型,只是對其中的一些參數還不知道;此時蒐集資料的目的,就是要來決定這些參數。
大家熟知的「A/B測試」,就是很常用的工具:對已經存在的兩組(或多組)介面設計,如果想知道哪一種比較受歡迎(設計參數),就把設計發給兩組使用者群,藉由蒐集使用的頻率,或是直接進行意見調查,就可以決定哪一組設計比較好。
如果蒐集進來的數據有問題,推論出來的參數就是錯的。
這個說明當然經過簡化再簡化,只是用來讓大家瞭解問題的性質。
資料的正確性,在這一類的問題自然具有決定性的關鍵;如果蒐集進來的數據有問題,推論出來的參數就是錯的。
然而,第二類的問題就沒有這麼直接了當、而且也比較稀少;但是一旦解決,卻是價值比較大的分析類型。

「我們不知道我們不知道」

這一種型態的問題,解決方案之所以那麼稀少,主要還是因為發現問題所在的運氣成分非常重,更不要說成功地解出問題。
不過,回顧這些相關的案例就會知道,它們被發現的「觸發點」還是有許多相似之處:多半是在解決第一類問題的時候,陰錯陽差找到一些令人驚訝的事實,然後被有觀念的人鍥而不捨地繼續鑽研。
在筆者之前的〈從Office精簡版的血淚,看軟體功能的「長尾理論」〉一文中,就曾經提到過:因為測試Excel大檔的功能,而無意中發現了Office的長尾現象,就是其中一個例子。
在這裡舉另一個例子,讓大家進一步瞭解這種現象。
自Windows XP引進Watson的遙測資料蒐集功能之後,如何儲存並分析這些資料成為一個很大的挑戰;因為,它的規模其實超乎原來微軟的預期。

兩類分析資料

在使用者同意傳回資訊的前提之下,回傳的資料大致分成兩類:
  1. 第一類是前一篇所說明的、事先計畫好的遙測資料;
  2. 另一類(資料量其實超過六成以上)是當系統中的應用程式發生記憶體毀損、或是某一段程式執行同一段碼過久時,系統就會發出一個對話方塊,詢問使用者要不要回傳記憶體的內容下載(memory dump)給微軟,以便做進一步的分析。
我記得有一個數據,是即使多數的使用者都持保守態度、不願傳回的情況下,微軟還是每天會收到超過一百萬次回傳。那個時候,我們都笑稱那些資料是「應用程式垃圾」。
但仔細想一下就能瞭解:如果這些回傳是由微軟自己寫的、或是友商的應用程式所產生的還好,的確可以回溯問題的發生點、找出先前沒有找到的臭蟲。
但實際的情況是,這些回傳有八成以上是微軟「不認識」的應用所製造出來的。這讓毀損程式碼的分析,變成一種不可能的任務;微軟再有錢,也找不到那麼多人來做反組譯和追蹤(trace)錯誤所在的工作。
也因為如此,早期有許多收回的資料其實跟廢物沒兩樣。

從分類中挖黃金

不過,微軟究竟是對資料具有極大興趣的公司,也不想因為很難做就放棄;因此還是投入了很多工程師和研究人員,試著將這些回傳資料做自動分類。
有些分類是從毀損點的程式碼模式,有些則是從毀損時堆疊的資料內容分析,看看能不能找出類似的模式(pattern)。讓我印象很深刻的是,有一個團隊甚至將機器碼和資料在記憶體中的分布做成圖型,試著透過電腦視覺的方法來找出模式。
其中一個很有價值的發現,是一位工程師在檢視有問題的下載資料段內容時,發現了一連串的IP位址;剛好這位工程師之前在防毒產品團隊待過,懷疑這些IP是「殭屍網路」的一部份。
經過反組譯處理,工程師確認有一段的確是惡意程式的一部分;於是這位工程師大膽假設,製作惡意病毒的人跟一般開發者一樣,寫出來的程式也會有臭蟲、也會當掉。
好玩的是,即使寫惡意軟體的人刻意在檔案中對IP特別加密,以避免被防毒程式掃到,但它在記憶體中一定會回復成明碼形式,否則程式無法使用。所以,如果在資料中找到殭屍網路的IP,就有九成九的可能是個惡意程式,值得進一步追查。
這個假設一出來,有好幾位工程師持續去驗證,果然找出許多已知的惡意程式的片段。之後公司發現這有非常大的價值,甚至還與執法和國安單位合作,成立了獨立的產品組,對大型企業或公務單位提供分析惡意程式的服務,成為超高利潤的業務。

結語

簡言之,這類問題的解決核心,在於能不能從「垃圾」裡找到黃金;而對於能從中挖出黃金的垃圾,我們還能稱這些是垃圾嗎?
我雖然不是資料科學和AI的專家,但看得出對於有能力掌握資料的高科技公司而言,這些方法論是很有價值的。之前的這些發現,都必須仰賴人們不屈不撓的對一堆垃圾進行挖掘和測試,而且還有很多運氣成分。
如果這些過程能用自動化的程序和電腦來取代,結果會不會更好?
在新的時代中,資料是不是垃圾,恐怕不會是人類說了算。
為什麼會看到廣告
1.4K會員
2.0K內容數
為您送上頂尖作者的最新管理與科技產業思維。
留言0
查看全部
發表第一個留言支持創作者!
對於自由工作者來說,最大的優勢之一在於可以隨時「開除」顧客;因為工作能量有限,所以必須先開除不適合的顧客,才能再容納更好的顧客。但這整個過程並不是隨性的,而是經過思考的策略。
在前篇〈人才的成本:微軟在台灣設立研發中心的真正原因〉一文中,作者說明了台灣被微軟等大公司選中、設立研發中心的主要原因;本文則繼續從企業與產品發展的角度,討論企業研發中心遭遇的問題、現況、轉型求生的方式、以及對人才的要求,帶您一窺新聞背後的種種考量。
台灣大哥大在今年四月上任的總經理,是活躍於新創圈、創立知名創投AppWorks,但從未有過任何電信業背景的林之晨先生。握有實權的富邦集團董事長蔡明忠這一手棋,引發了許多聯想:為什麼會是林先生?
跨界才能創新,而從跨界觀點分析成功商業模式、以製造業角度解讀眾所熟悉的餐飲服務,或許可以激發更多創意。而同樣的觀察方法,也可以跨進其他服務業,碰撞出更多火花、創造出新的商機。
許多產業觀察者都認定,包括智慧手錶、手環等產品的「穿戴式裝置」將會是下一個兵家必爭之地,而Apple、小米等大公司也早已在這個目前還小的市場中站穩腳步。Google當然也不會坐視,但先前併購Fossil團隊之後,再買Fitbit的真正原因與目的究竟是什麼?
對於產品經理而言,產品路線圖是重要的溝通工具、也是讓產品發展得以步上正軌的指引。然而路線圖的發展會受到許多因素的影響;除了產品經理本身的能力、以及對市場的瞭解之外,本文分析的7個要件也非常重要。
對於自由工作者來說,最大的優勢之一在於可以隨時「開除」顧客;因為工作能量有限,所以必須先開除不適合的顧客,才能再容納更好的顧客。但這整個過程並不是隨性的,而是經過思考的策略。
在前篇〈人才的成本:微軟在台灣設立研發中心的真正原因〉一文中,作者說明了台灣被微軟等大公司選中、設立研發中心的主要原因;本文則繼續從企業與產品發展的角度,討論企業研發中心遭遇的問題、現況、轉型求生的方式、以及對人才的要求,帶您一窺新聞背後的種種考量。
台灣大哥大在今年四月上任的總經理,是活躍於新創圈、創立知名創投AppWorks,但從未有過任何電信業背景的林之晨先生。握有實權的富邦集團董事長蔡明忠這一手棋,引發了許多聯想:為什麼會是林先生?
跨界才能創新,而從跨界觀點分析成功商業模式、以製造業角度解讀眾所熟悉的餐飲服務,或許可以激發更多創意。而同樣的觀察方法,也可以跨進其他服務業,碰撞出更多火花、創造出新的商機。
許多產業觀察者都認定,包括智慧手錶、手環等產品的「穿戴式裝置」將會是下一個兵家必爭之地,而Apple、小米等大公司也早已在這個目前還小的市場中站穩腳步。Google當然也不會坐視,但先前併購Fossil團隊之後,再買Fitbit的真正原因與目的究竟是什麼?
對於產品經理而言,產品路線圖是重要的溝通工具、也是讓產品發展得以步上正軌的指引。然而路線圖的發展會受到許多因素的影響;除了產品經理本身的能力、以及對市場的瞭解之外,本文分析的7個要件也非常重要。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
你曾經想過,每天大量製造出來的塑膠垃圾,後來都流到哪裡去?  垃圾們不會憑空消失,也不能直接拿來再次利用,這中間,需要經過許多道程序。 人們不要的塑料垃圾,被當成出口的商品以極為便宜的價格,出口各國,其中包含中國與台灣。
Thumbnail
澳洲的資源回收還在剛起步的階段,為了鼓勵和落實回收,澳洲所提供的回收獎勵金很高,雖然每個州的回收方式都不太相同,也不是每個州都有這樣的獎勵,但以我所在的新南威爾斯州舉例,每一個瓶子可以取得10 Cent的獎勵金,也就是一個瓶子大約台幣$2元上下,雖然聽起來好像是小錢,但是積少成多,也是很驚人。
Thumbnail
可能包含敏感內容
論說文章的構築需要在題幹、素材與切入角中進行完整的串聯,才能作出通情達理、脈絡暢通的篇章。只是單純羅列出龐大的作品擺出刺蝟的架式無法與他者互動;看似想揭起認知革命的人最終只會成為萬針輪插的針山沒能傳達─如何面對動畫的內容? 與其恐懼而抗拒,不如認識並加入─媒體識讀與創作的熱情,不正由此而來嗎?
Thumbnail
很後來的中秋節,家裡就不烤肉了,除了因為沒有人要收就會變成我的工作之外,最受不了的是每次烤完肉就會製造一堆垃圾,尤以跟親朋好友一起的時候,更是容易大量產出免洗餐盤、餐具,每每我要是忍不住murmur:「你們幹嘛就在家門前烤肉,還要用一堆免洗用品!」肯定是會遭來白眼或是「你環保你最高尚」的嘲諷!
Thumbnail
「你永遠不會好起來,只能一天天的過。這會是你每天醒來想到的第一件事,直到有一天,它變成你醒來後想到的第二件事。」我默默記下這個從每劇裡看來的哲理,一天天數日子。
Thumbnail
有些人每天看 YouTube 片段渡日,有些人每天做著對社會沒有大意義的工作。簡單來說,假如他們的工作明天突然消失,對他們或世界而言都沒有大影響。 他們稱他們的工作是 「bulls–t jobs」,即垃圾工作。
Thumbnail
<p>食物供需的經濟體系裡,唯一的連線就是杯水車薪的慈善組織,科技公司不可能花心思和人力去處理剩食的分配。所以即時重新分配剩餘食物的平台,就成了高科技、循環式經濟以及環保綠能結合下最自然的產物。</p>
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
你曾經想過,每天大量製造出來的塑膠垃圾,後來都流到哪裡去?  垃圾們不會憑空消失,也不能直接拿來再次利用,這中間,需要經過許多道程序。 人們不要的塑料垃圾,被當成出口的商品以極為便宜的價格,出口各國,其中包含中國與台灣。
Thumbnail
澳洲的資源回收還在剛起步的階段,為了鼓勵和落實回收,澳洲所提供的回收獎勵金很高,雖然每個州的回收方式都不太相同,也不是每個州都有這樣的獎勵,但以我所在的新南威爾斯州舉例,每一個瓶子可以取得10 Cent的獎勵金,也就是一個瓶子大約台幣$2元上下,雖然聽起來好像是小錢,但是積少成多,也是很驚人。
Thumbnail
可能包含敏感內容
論說文章的構築需要在題幹、素材與切入角中進行完整的串聯,才能作出通情達理、脈絡暢通的篇章。只是單純羅列出龐大的作品擺出刺蝟的架式無法與他者互動;看似想揭起認知革命的人最終只會成為萬針輪插的針山沒能傳達─如何面對動畫的內容? 與其恐懼而抗拒,不如認識並加入─媒體識讀與創作的熱情,不正由此而來嗎?
Thumbnail
很後來的中秋節,家裡就不烤肉了,除了因為沒有人要收就會變成我的工作之外,最受不了的是每次烤完肉就會製造一堆垃圾,尤以跟親朋好友一起的時候,更是容易大量產出免洗餐盤、餐具,每每我要是忍不住murmur:「你們幹嘛就在家門前烤肉,還要用一堆免洗用品!」肯定是會遭來白眼或是「你環保你最高尚」的嘲諷!
Thumbnail
「你永遠不會好起來,只能一天天的過。這會是你每天醒來想到的第一件事,直到有一天,它變成你醒來後想到的第二件事。」我默默記下這個從每劇裡看來的哲理,一天天數日子。
Thumbnail
有些人每天看 YouTube 片段渡日,有些人每天做著對社會沒有大意義的工作。簡單來說,假如他們的工作明天突然消失,對他們或世界而言都沒有大影響。 他們稱他們的工作是 「bulls–t jobs」,即垃圾工作。
Thumbnail
<p>食物供需的經濟體系裡,唯一的連線就是杯水車薪的慈善組織,科技公司不可能花心思和人力去處理剩食的分配。所以即時重新分配剩餘食物的平台,就成了高科技、循環式經濟以及環保綠能結合下最自然的產物。</p>