另外有未經證實的說法是 Google Home 的某些版本永遠是處於錄音狀態。如果內容跟商機有關,錄音檔就會自動上傳到 Google 資料中心加以分析。下次當你搜尋 Google 的時候,你曾經在家裡提到過的商品就會以最高優先順序出現在搜尋的結果上。比方說如果你跟家人提到聖誕節想買一隻手錶,在你還沒有上網展開任何正式血拼之前,Google 已經知道你想要什麼,而且已經做好適當的安排了。
家庭小秘書在毫無指令的狀況下會突然失控自我行動早就不是新聞,連我自己都經歷過。我家裡的 Google Home 曾經兩次在完全沒有任何對話及其他聲源的狀況下,突然無厘頭地說了幾句話。另一個眾所周知,甚至帶一點小幽默的失控的行為,是很多用戶發現 Alexa 偶爾會竊竊私笑起來。這些在夜半聽來除了有些恐怖之外,也許都是無傷大雅的小失控,但是比較令人擔憂的是機器學習下電腦自主性的問題。
多年前 Google 翻譯曾經出現了嚴重的錯誤。當時如果你打入 ”Tibet is not part of China” (西藏不屬於中國) ,Google 翻譯出的中文竟是 「西藏是中國的一部分」。這個應該不是 bug,而像是被大陸網軍提供相反教材所訓練出來的結果。翻譯本身沒有邏輯也沒有知識,所以無所謂有是非。它靠的完全是學習。當然可想而知,如果你打入 Taiwan,出來的結果也是如此。後來 Google 顯然發現問題,而修改了演算法則,平息了這場帶有政治色彩,且顯然經過操弄的的錯誤機器學習。但是這個小插曲揭露了一件事,那就是機器行為沒有是非,而資料可以改變機器行為。在 AI 時代,唯一的真理就是資料,唯一的權柄也是資料。
兩個月前亞馬遜才宣布他們長期使用的 AI 僱人甄選系統會歧視女性應徵者。他們發現人工智慧主動把疑似女性的履歷剔除。如果學歷之中出現女子學校,或者用詞之間出現「女性」這個字,評分都會遭到降級。設計這套系統的人從來沒有告訴電腦要這麼做,但是電腦學會了倒果為因——AI 不懂得歧視,它只懂得根據已經成為事實的歷史資料決定未來的走向。所以當歷史資料背負著過去的偏頗,AI 做出來的決定自然也是誤謬的。這種誤謬無法修正——除非你大量竄改歷史,或是完全拋棄這一套 AI 系統。這就是機器學習可怕的地方。
以後說不定法院判決、公司解雇、學校申請、工作面談、銀行貸款⋯⋯都會用上 AI ——人們也許永遠不會知道上面這些判決背後真正的原因。資料,不管是對是錯,是一個百分之百的黑箱子。分析資料的演算法又是另一個百分之百的黑箱子。而這兩個黑箱子疊在一起,竟然有無比大的權柄。這個權柄有時候大到可以掌控我們的生死。就如同 Uber CEO 前兩天才對公司內部承認,今天三月 Uber 自駕車在亞利桑那州撞死行人,是因為自駕系統搞了烏龍。未來的某一天我們的命運也許都只是機器學習下的副產品。