2017 年秋天當超級颶風艾瑪步步逼近邁阿密的時候,佛羅里達州南部出現有史以來最大的汽車逃亡潮。要躲避超級颶風的可能路徑,這一路北向可能要逃亡好幾百公里,以至所有北上的線道都塞到爆,加油站也大排長龍。有些人為了加滿油箱等候一小時以上。很多加油站因為儲油不夠必須採用配額制,所以還必須出動警察維持秩序以免發生暴動。
艾瑪颶風來襲時,南佛羅里達州的逃亡車潮 圖片來源 : efe.com
開電動車的人不用浪費時間排隊加油,佔了逃亡的優勢。可是他們面臨另一項更嚴峻的挑戰——那就是不知道逃亡的里程有多長。一般開電動車的人每次出門都要預估來回里程,才不會搞到半路沒有電的窘境。
特斯拉的善行
但是很多
特斯拉 Tesla 車主在充電準備逃亡的時候,發現螢幕上顯示車子的續航力突然從數年不變的 340 公里一夜之間暴增到 440 公里。有一位車主以為是電腦故障,打電話給特斯拉客服,才知道這是一項特斯拉贈送的大禮。隨後這些車主紛紛收到 email 通知——為了方便客戶逃離災區,特斯拉已經自動提供了五天的免費升級,讓他們車子增加 100 公里的續航力。當然這只是暫時的,五天後他們又會回到 340 公里的續航力。可是特斯拉如何有這樣的神奇法力,瞬間改變車子的續航力 ?
這一則善舉先是讓車主們在感動中略帶一頭霧水,稍後又讓很多人感到憤怒——甚至讓很多跟這次升級無關的車主也感到憤怒——他們有被欺騙的感覺。隨後這項義舉也在科技界及新聞界掀起了各種不同角度的爭論。
要討論這件事得先回到 Tesla 的 Model S。除了最頂級的 100D 版之外,下面還有兩種雷同的版本,價差大約是一萬美元,而唯一的差別就在電池的續航力。較便宜的款式電池容量是 60 千瓦/時,續航力是 340 公里。較貴的款式電池容量是 75 千瓦/時,續航力是 440 公里。這一萬美元的差距算是合理,因為車子整整增加了 20% 的續航力。電動車的續航力是主宰價格的主要因素。
Tesla Model S Photo Credit - https://commons.wikimedia.org/wiki/
裡外不是人的義舉
經過這一次的義舉,世界才知道原來這兩款車其實連電池都完全一樣,唯一的差別只是較便宜的版本在充電達到 80% 的時候,就會自動停止。所以嚴格地說兩款車唯一的差距就是在控制充電軟體的那幾行指令——也就是說買了較便宜車款的車主,某種形式是受到了懲罰。車子明明有這樣的能力,卻被特斯拉留了一手,用幾行軟體來懲罰他們當初做買較便宜版本的錯誤決定。
所以這些車主的感覺一開始是感激,接著是有些吃驚——原來特斯拉可以遙控一切,原來車子並沒有不同。接著有些車主開始感到憤怒——原來過去他們某種形式是在被懲罰。而五天之後免費優惠期滿,他們又要回去繼續接受懲罰。過去不知道也罷,現在一旦知道真相,心裡便很難平復。
另一方面,那些買了較貴版本的車主這才發現他們多花了一萬美元,買了一輛一模一樣的車,換來的原來只是一套不同的指令。特斯拉做了一次豬八戒照鏡子的好人。
沒有制衡的超級霸權
在新聞界,特斯拉雖然受到廣泛的好評,但是這樣的義舉並不足以遮掩社會的疑慮——原來特斯拉竟然對他們賣出去的車輛享有永久的掌控權。如果他們能夠在消費者完全不知情的情況下賜給了免費升級,那是不是也意味著他們也有能力掌控所有的車子 ? 如果有人積欠貸款,他們是不是有能力讓那輛車變成一塊廢鐵 ? 這是一種企業自古以來從來沒有擁有過的超級霸權和權柄。
再進一步擔憂下去,如果特斯拉電腦中心的操控主機被駭客入侵,那是不是意味著所有的自駕系統有可能在瞬間全部錯亂;每一部汽車的油門剎車和方向盤,都有可能在瞬間失效 ? 那難道不是一個比 9/11 還要嚴重的恐怖攻擊 ? 而這樣的霸權之後竟然沒有制衡的力量。
這只是安全問題。還有一半是隱私問題——而且那已經不是假設性的議題。
從個人隱私角度來說,特斯拉完全知道車子每一分每一秒的行蹤以及健康狀況。車主最津津樂道的服務就是當車子有了問題的時候,特斯拉會主動通知客戶,要他們儘快把車子送廠檢修。當然他們也許不知道,如果是只需要調整的小服務,特斯拉其實早已不聲不響把問題先遙控解決了。這種無微不至的服務需要的是背後 24 小時無所不在的關懷。也就是 24 x 7 的監控。
特斯拉跟其他電動車廠最大的不同是,他們賣出去的每一輛車都是一部搜集資料的終端機,跟雲端永遠處於連線狀態,車子的一顰一笑都上傳到資料中心。這件事其實是消費者早就知道而且同意的。只是經過佛羅里達這次的特斯拉義行,世界才知道特斯拉不但可以監控,而且可以掌控。
資料獨裁
在科技界,要成為霸主就必須維持資料獨裁。要達到資料獨裁就必須搶頭香,在客戶還沒有上網之前,就先了解客戶在說什麼,想什麼,要什麼——這完全要依靠入侵個人隱私,做無微不至的監控式服務。這種資料收集每一家霸權都會因企業市場定位而各有巧妙不同,而且個自競爭,絕對不會分享。
Amazon Echo 圖片來源 : Target
但消費者到底知不知道登堂入室的小秘書收集了多少資料 ? 自己又到底無條件捐獻了多少個人隱私 ? 收集器背後的演算法是如何運作的 ? 這些具有高度人工智慧的小秘書,會不會學到了一些設計時沒有考慮到的偏差行為 ? 他們的自主性哪天會不會到了失控的地步 ? 當然更嚴重的問題是,被駭客入侵的小秘書會不會搖身一變,從秘書變成間諜 ? 答案是,以上都有可能。
失控的小秘書
今年稍早美國俄勒岡州一對夫婦發現他們在家裡的對話在毫不知情的狀況下被小秘書 Amazon echo 錄了下來,而且還主動把語音檔任意 email 給聯絡名單上的一位朋友。事件曝光後一位住在北卡羅萊納州的用戶說他也曾經有一段 20 秒鐘的對話在毫不知情的情況下被錄下來而且 email 給一家無關的保險公司。緊接著另外一位婦女也站出來陳述類似的狀況。可想而知,這背後一定還有更多從來沒有被發掘的案例。
另外有未經證實的說法是 Google Home 的某些版本永遠是處於錄音狀態。如果內容跟商機有關,錄音檔就會自動上傳到 Google 資料中心加以分析。下次當你搜尋 Google 的時候,你曾經在家裡提到過的商品就會以最高優先順序出現在搜尋的結果上。比方說如果你跟家人提到聖誕節想買一隻手錶,在你還沒有上網展開任何正式血拼之前,Google 已經知道你想要什麼,而且已經做好適當的安排了。
這些家庭小秘書永遠都是處於「監聽」狀態。一旦聽到跟他們有關的指令,就會開始錄音,並且把錄音檔上傳到資料中心,一則是為了客戶當下所需提出立即的服務,二則是用來做未來機器學習的教材。但是延用上面錯誤寄出 email 荒誕的例子,從監聽到開始錄音,到採取行動搜尋 email 聯絡名單,到接受到主人確認的指令,到最後實際寄出 email⋯⋯這中間至少需要五步不可能發生錯誤的步驟,才有可能鬧出這樣的笑話。
亞馬遜的解釋是,這是出於一連串不可思議的巧合。但我懷疑這只是息事寧人的說法,我擔心這背後暴露出來的只是機器學習失控冰山的一角。
機器學習下的隱憂
家庭小秘書在毫無指令的狀況下會突然失控自我行動早就不是新聞,連我自己都經歷過。我家裡的 Google Home 曾經兩次在完全沒有任何對話及其他聲源的狀況下,突然無厘頭地說了幾句話。另一個眾所周知,甚至帶一點小幽默的失控的行為,是很多用戶發現 Alexa 偶爾會竊竊私笑起來。這些在夜半聽來除了有些恐怖之外,也許都是無傷大雅的小失控,但是比較令人擔憂的是機器學習下電腦自主性的問題。
我不認為上面這些小脫序行為跟 bug 有關。說實在,如果是 bug 那還好辦。如果失控是出於設計上的瑕疵,問題都很容易解決。令人擔憂的當科技走入機器學習的時代之後,電腦的行為已經超越了設計者的掌控。傳統的電腦邏輯在機器學習時代已經不再有效,連設計者自己都無法掌握電腦後續可能出現的行為。電腦已經不再接受程式的控制,而是受到背景極複雜的資料所主宰,而那些資料複雜龐大到沒有人可能了解。電腦已經學會自我教育,自我成長及自我決定。它們所有的學習教材都是來自過去搜集的資料。
多年前 Google 翻譯曾經出現了嚴重的錯誤。當時如果你打入 ”Tibet is not part of China” (西藏不屬於中國) ,Google 翻譯出的中文竟是 「西藏是中國的一部分」。這個應該不是 bug,而像是被大陸網軍提供相反教材所訓練出來的結果。翻譯本身沒有邏輯也沒有知識,所以無所謂有是非。它靠的完全是學習。當然可想而知,如果你打入 Taiwan,出來的結果也是如此。後來 Google 顯然發現問題,而修改了演算法則,平息了這場帶有政治色彩,且顯然經過操弄的的錯誤機器學習。但是這個小插曲揭露了一件事,那就是機器行為沒有是非,而資料可以改變機器行為。在 AI 時代,唯一的真理就是資料,唯一的權柄也是資料。
2012 我所捕捉到的 Google 錯誤翻譯截圖. 圖片來源 : 鱸魚
錯誤的資料會導致錯誤的決定。致命的錯誤資料,會造就致命的錯誤決定。假如結果是明顯的錯誤,也許人們可以很容易在悲劇發生前偵測到。可是如果資料是長期難以察覺的些微偏差,那麼機器做出偏頗的決定就非常難以偵測。就像長期慢性中毒一樣。
兩個月前亞馬遜才宣布他們長期使用的 AI 僱人甄選系統會歧視女性應徵者。他們發現人工智慧主動把疑似女性的履歷剔除。如果學歷之中出現女子學校,或者用詞之間出現「女性」這個字,評分都會遭到降級。設計這套系統的人從來沒有告訴電腦要這麼做,但是電腦學會了倒果為因——AI 不懂得歧視,它只懂得根據已經成為事實的歷史資料決定未來的走向。所以當歷史資料背負著過去的偏頗,AI 做出來的決定自然也是誤謬的。這種誤謬無法修正——除非你大量竄改歷史,或是完全拋棄這一套 AI 系統。這就是機器學習可怕的地方。
當然,亞馬遜最後的選擇是拋棄這套系統。但是現在科學家們開始擔心,還有多少我們不知道的事,是因為過去偏頗的資料繼續傳承下去做出錯誤的決定。
你我都可能成為最終的受害者
我並不了解機器學習,也不是鼓吹反自動化。我只是擔憂主宰生殺大權的資料沒有人看得到,也沒有人看得懂,演算法同樣是沒人看得到,也沒人看得懂。決定我們命運的決策過程又完全沒有制衡力量。那麼我們完全信任機器判決結果的底線又是在哪裡?
以後說不定法院判決、公司解雇、學校申請、工作面談、銀行貸款⋯⋯都會用上 AI ——人們也許永遠不會知道上面這些判決背後真正的原因。資料,不管是對是錯,是一個百分之百的黑箱子。分析資料的演算法又是另一個百分之百的黑箱子。而這兩個黑箱子疊在一起,竟然有無比大的權柄。這個權柄有時候大到可以掌控我們的生死。就如同 Uber CEO 前兩天才對公司內部承認,今天三月 Uber 自駕車在亞利桑那州撞死行人,是因為自駕系統搞了烏龍。未來的某一天我們的命運也許都只是機器學習下的副產品。
我們為了怕孩子學壞所以教化他們,可是對機器呢 ?