前言: 前天《紐約時報》的科技記者Cade Metz,也是本文所介紹的好書《AI製造商沒說的秘密》一書的作者在該報發表了對Geoffroy Hinton的專訪,首度揭露了他要離開谷歌,下一步是要以獨立的身分來討論、提醒世人AI可能帶來的風險,而Cade Metz這書本對於類神經網路這派的人工智慧發展可以說做了非技術性的權威性追溯,本文便是把書中Hinton,還有另一位AI大神楊立昆在推進這個人工智慧分支的關鍵十年的過程做了重點摘要,除了Hinton和楊立昆,從本文就可以知道現在在OpenAI公司挑大樑的蘇茲克維是如何發跡的,也更了解台灣新創界的名人-Ikala的CEO程世嘉這則短短貼文所指的Hinton豐功偉業倒底是那些。
一、類神經網路派人工智慧的第一個突破
2008年12月11日鄧力走進加拿大卑詩省惠斯勒的一家旅館,他是參加完在溫哥華的神經語言處理(NIP)人工智慧年會後,來參加氣氛相對輕鬆的NIP 研討會,他致力於開發能夠辨識語音的軟體。他原來是滑鐵盧大學的華裔教授,後來成為微軟在西雅圖近郊中央研發實驗室的研究員。鄧力和他的團隊在微軟花了三年,開發了一套最新的語音辨識系統,然而準確度只比上一代高5%。會議的某一天晚上他在惠斯勒遇到他在加拿大時就已經認識的辛頓。
鄧力問他”有什麼新鮮事?”,辛頓回他”深度學習”,辛頓表示神經網路已經開始發展到進行語音辨識。對此鄧力心中存疑,辛頓從來不是一位語音辨識專家,而且神經網路迄今不曾在任何方面出現實質成果。但辛頓和他的學生近幾年已經出版了多篇關於深度線念網路的論文。此一網路可以處理大量數據並自其中學習。現今其效能已經接近最先進的語音辨識系統,是之前的科技無法企及的。
辛頓和鄧力說”你一定得試試”。第二年夏天鄧力比較有空,他開始閱讀當時被稱為神經語言辨識的論文,結果他大為激賞。接者在下一屆惠斯勒研討會前夕,辛頓發了一封郵件給鄧力,郵件中有篇論文草稿,該稿件顯示,經過三小時對口語的分析後,神經網路的語音辨識表現與其他一些最先進的方式不相上下。但是鄧力對此存疑,多倫多大學這些科學家解說此一科技的方式讓人難以理解。
而且他們是以實驗室錄製的聲音資料庫來進行測試,而非真實世界的語音。於是他要求檢視他們測試的原始數據。當他打開電子郵件,親眼看到這些資料。了解此一科技的能耐後,他終於相信了。 那年夏天鄧力邀請辛頓到微軟的總部的中央研發室待一陣子,辛頓答應了。他們以稱做MATLAB 的程式語言來建立模型,所寫的程式碼超過十頁。大多是都是辛頓所寫的,鄧力對他優雅簡約的程式碼大為驚艷,不過這些程式碼讓他欣喜的不只是明確而已,他們以微軟的語音資料來訓練該系統,成效卓著。雖然還不及當時最先進的一些系統,但已足以令鄧力相信,這就是語音辨識的未來。
鄧力已預見,他和辛頓合力建立的系統,在吸收大量的資料之後,效能會更強大。這套原型系統,所缺少的是分析所有資料所需的處理效能。在多倫多,辛頓所使用的是一款非常特殊的晶片,叫做GPU,也就是圖形處理器。輝達等矽谷晶片設計商,原本設計這些晶片是為了最後一站(halo)、俠盜列車首(Grand Thaft Auto) 等熱門電子遊戲快速產生圖像。
但是深度學習的研究人員發現 GPU 可以快速處理神經網路的數學運算。早在 2005 年在鄧力與辛頓日後建立語音辨識系統的微軟實驗室,就有三位工程師 想到使用這類晶片。與此同時,史丹佛大學的一個研究團隊,也在無意間發現 這類晶片的另類用途。這種晶片可以讓神經網路學習速度加快,而且增加其學習的能量。這些完全呼應了楊立昆90年代在貝爾實驗室的研究成果。
GPU最大的特點是,它是現成的硬體,無須打造新晶片來加快深度學習的發展。在多倫多,辛頓與他的兩位學生:阿布圖∙拉曼∙穆罕默德與英國教授之子喬治∙達爾,就是利用這種特殊晶片來訓練他們的語音辨識系統,從而開發出遠在水準之上的科技。這個夏天的幾個月後,辛頓打開一封來自陌生人的郵件,此人名叫威爾∙奈維特,他問辛頓能否送一位學生來北加州的谷哥總部。
二、繼微軟、IBM之後谷歌加入戰局
繼幫助微軟設立新的語音研發計畫和公開發表研究報告後,他們又前往幫助第二家科技巨擘 IBM 進行類似的研發計畫。2010年秋天,在造訪微軟九個月後 阿布圖∙拉曼開始與IBM的華生研究中心合作。但當時辛頓的學生達爾另有研究計畫,穆罕默德在IBM。於是辛頓轉向另一一位學生:奈迪普∙傑特力,他是一位計算生物學家,後來才投入人工智慧的研究。他是加拿大印度移民之子 ,派他去和谷歌合作。傑特力要求寫信來的奈維特購買一台裝滿GPU的機器。
傑特力離開多倫多要去和谷歌的人見面前,學者氣息濃厚的達爾曾叮嚀他,不要隨便聽從大公司的話。他說”你要對谷歌予取予求,而不是讓谷歌對你予取予求”。於是傑特力和范豪克等谷歌人見面時,提出了大型神經網路的計畫。 這個提議起初被否決,因為即使訓練小型的神經網路也要幾天的時間。
傑特力要是以谷歌的資料來訓練,可能要花上幾周的時間。一位谷歌人問傑特力,他能否以兩千小時訓練出一套神經網路。這回輪到傑特力拒絕了。之前在多倫多的實驗室穆罕默德與達爾只用了三小時的資料訓練神經網路。在微軟,他們用了十二小時的資料。而谷歌是一家所有資料都超大量的企業。在會面結束後傑特力寫了一封EMAIL給辛頓。他問到”有人曾經用兩千個小時來訓練嗎”? ”沒有”,辛頓答覆,”不過我不認為有什麼行不通的”。
到了蒙特婁的谷哥辦公室(因為傑特力當時正在申請美國綠卡,無法再去申請 美國的工作簽證)。傑特力在一周之內就開始透過線上操作那台嗡嗡作響的GPU機器訓練他的第一套神經網路。當他測試他的新系統時,發現他的錯誤辨識率是21﹪左右,這是一項了不起的成就。谷歌自己應用在安卓手機上的語音辨識服務的錯誤率都還卡在23﹪,降不下來。又經過兩週的訓練後,傑特力將他的系統錯誤率,進一步降至18﹪。
這套系統又快又好,傑特力於是決定訓練第二套系統。能夠在YOUTUBE影片中 搜尋特定的語彙 (如果你只是從系統中搜尋驚喜一詞,該系統就能辨識影片何時出現此詞)。谷歌已經建立了一套這樣的服務,不過有53﹪的錯誤率。而在夏季結束之前,傑特力已將他的系統錯誤率降到48﹪的水準。但問題在傑特力的系統處理網路即時訊問的速度比理想的速度慢了十倍,這種速度沒人想用。
在谷歌的范豪克團隊處理這問題的同時,又有一支團隊加入研究。而且是來自谷歌完全不同的部門。當傑特力在蒙特婁埋頭苦幹時,有幾名科學家包括辛頓的一位學生在內,在谷歌的加州總部設立了一所深度學習實驗室。在范豪客團隊的合作下,該實驗室不到六個月的時間就將此一科技應用在安卓手機上。谷歌起初並未向世界宣布其語音辨識服務已經改變。
這項新服務上線後沒有多久,范豪克就接到為最新款安卓手機供應晶片的一家小廠商的電話。此一廠商的晶片,是在你對手機發號命令時能夠去除四周環境的噪音,用以去除雜音,幫助語音系統能夠更容易辨識語音。但是該廠商告訴范豪克,晶片已經失去作用,無法提升語音辨識服務的功能。范豪克聽了之後 很快就了解是怎麼一回事:這是新型的語音辨識系統效能太高,反過來使去除噪音的晶片無用武之地,由此顯示谷歌的神經網路系統已經學會如何處理噪音。
2010年年底,吳恩達做在一家日本料理店內,等候谷歌的創辦人-佩吉。吳恩達出生於倫敦、成長於新加坡,是一位香港籍醫生的兒子。