[群像] Fei Fei Li:我們如何教導電腦瞭解影像

更新於 發佈於 閱讀時間約 12 分鐘
Fei Fei Li 的『我們如何教導電腦瞭解影像』 TED Talk

Fei Fei Li 的『我們如何教導電腦瞭解影像』 TED Talk

二次大戰期間,於布萊切利莊園祕密從事破解德軍密碼的艾倫圖靈(Alan Turing),在戰後醉心於發展有限狀態自動機械的抽象數學模型。同時能將數學符號與繁瑣的計算驟在腦中呈現的他,反覆思索自動機械的潛能,多少白晝和深夜的冥想思索,他將思考的結晶發表成計算機制和智慧(Computing Machinery and Intelligence)一文,在文中更提出了著名的圖靈測試,作為判斷計算機械是否能擁有智慧的準繩。

這個問題,對於當時,需要以將近一個空房來放置一臺電腦,經常要動員好幾十位程序員進行穿孔和裝換紙帶的工作,方能編寫數行程式碼。機械能夠思考,似乎難以想像。但是對於圖靈,以及他所執筆一系列關於自動有限狀態機械的理論論文,文中獨特的視野和無邊的想像,再以抽象數學表達和理性邏輯論述,對未來的智慧機械勾勒出了遠景和藍圖。

甚而,為了避免全面定義智慧這樣複雜而又模糊的概念,他提議以一種『模仿遊戲』(imitating game)來回答『機械是否擁有智慧』這個大哉問。

在『人是有智慧』的前提下,圖靈提議讓人和機械進行一場比賽,比賽的參賽者皆不顯露自己的身份,好讓人類評審無法事先得知哪一位參賽者才是真正的機械。在比賽進行最後,若人類評審無法分辨出哪一位參賽者是機械,哪一位參賽者是人類,換句話說,機械已成功地模仿了『智慧』人類的行為,因此也可被歸為具有智慧。

這在現今,個人電腦充斥,智慧型手機更是成為隨身配備的計算機器,人工智慧的發展由 IBM 發展的智能機器華生,參加危險邊緣(jeopardy)進而擊敗了人類對手,而逐漸形成一股熱潮。當時圖靈的問題,似乎就在不遠的將來得以實現。

機械是否能擁有和人類對等的智慧?感謝許多電腦科學家在圖靈之後,陸續對人工智慧這個領域投入心血研究,這個問題似乎愈來愈少人質疑。其中,於史坦佛大學人工智慧和電腦視覺實驗室主持人的 Fei Fei Li [註],在 TED 『我們如何教導電腦瞭解影像』(How we’re teaching computers to understand pictures)的演講中,分享了她長年在電腦視覺領域中的研究成果。

首先,讓電腦進行影像辨識,本身就是一個困難的問題。影像辨識中最基本的問題:讓電腦辨識兩張圖片是否相同,直覺上對影像中每一像素值逐一比對就已足夠。然而,由於影像本身品質的差異,和旋轉,裁切和縮放等影像的後置處理,讓這個基本問題,不是只有逐一比對像素,而是必須囊括代表性足夠的非人為變異,以及人為處理的影像,作為供機械學習的訓練資料(Training data)後,再由人類設計的演算法(algorithm),佐以電腦的強大計算能力,在龐大的訓練資料構成的資料庫,進行分類或分群學習後,方能具備辨識相同影像的能力。

這個過程,是從人類學習的過程中得到靈感,(其實大多數機械學習的演算法,多是從人類和生物界的構造與行為得到啓發),然而一直到近年來,電腦在自身硬體和網際網路設備的大幅進步,而使在巨型資料中搜尋和學習成為可能。

Li 以她的兒子 Leo 看到生日蛋糕的興奮之情,來藉以描述電腦如何理解這張照片。

Li 以她的兒子 Leo 看到生日蛋糕的興奮之情,來藉以描述電腦如何理解這張照片。

瞭解了辨認兩張圖片是否相同的困難處,就更不難瞭解如何讓電腦識別影像中是否包含人臉這樣的概念,甚而延伸到『教會』電腦瞭解目前輸入的影像中包含什麼物體,並將這些獨立的概念,連接串聯出一句有意義的句子。如:「照片中有一個小男孩站在高椅上」,是多麼困難而艱鉅的任務。

光是,人臉這樣的概念,就可以涵蓋不同膚色,髮色,表情和裝扮等等,電腦必須要先學習這許多變異,並將這些變異歸類於單一概念:『人臉』。進而,電腦還需要對影像進行分割,辨識不同的物體,如房子,雜草,樹木,天空等。就算能夠成功地辨識出影像中所有的物體,該如何捨棄不需要的物件,來組成有意義的句子,而不是有一個男孩站在天空中,這樣毫無道理的敘述,更需要電腦快速的運算能力,在如天文數字般語義和語法的組合中搜尋並進而得到最有可能的句子。

就我們一般人類來說,這幾乎是輕而易舉的事,然而電腦就像是患有嚴重自閉症的患者,在電腦的世界中影像,只是由位元組構成的像素,而必須從這些千萬像素所構成的影像中,歸納成高階抽像概念,而不被過多且無用的雜訊淹沒,自然只能仰賴人類的長處,利用高階抽象的數學符號來進行演算法設計,讓患有嚴重自閉症的電腦們,真正看到,而且『懂得』。

raw-image

文章自訂摘要 (1/150)

Li 的演講中,先以一連串童言童語的簡短句子來描述照片中的主題。

接著介紹她的研究團隊,其研究項目不僅包括了從事影像處理的電腦科學家,更包括了自然語言處理領域的科學家們,成功地教會電腦說出還在牙牙學語的學步兒能說出的句子。

raw-image


早期電腦視覺的科學家們,利用數學幾何公式來描述欲辨識物體的輪廓,然而鑒於物體的變異,有無被遮蔽,以及光影等條件,讓這樣依賴純數學的描述的演算法難以推廣到不同場景下的同樣物件。


早期電腦視覺研究者以幾何公式來描述影像內的物件,並將輪廓相似的物件歸類於同一物件,然而這樣的做法,卻無法處理同一概念下物件的變異性

早期電腦視覺研究者以幾何公式來描述影像內的物件,並將輪廓相似的物件歸類於同一物件,然而這樣的做法,卻無法處理同一概念下物件的變異性

為了突破這樣的困難,Li 從幼兒在成長的過程,透過觀看,模仿和犯錯,而終於能將字詞組合成有意義的句子得到靈感。她指出,幼兒學習過程,以人眼當作相機,每分每秒接受幾億萬張的影像來形成認知功能的訓練資料。同樣地,訓練電腦去看,去瞭解,也應該有巨大的資料庫,囊括物件所有的變異。

於是,Li 和她的團隊,把研究重心從演算法的發展,轉移到蒐集大量的訓練資料,在將近五年,以群眾合力方法,在網路上下載了數億萬張圖片,建構出儲存將近十五億萬張影像的 ImageNet 資料庫。為了更符合目前開放資料的精神,以及回饋無數群眾的努力,Li 以及她的團隊將這份寶貴又耗時的巨量資料庫,免費開放給有興趣的研究者下載分析。

透過群眾合力建造出的影像資料庫,將以開放免費的方式,提供給研究者使用。

透過群眾合力建造出的影像資料庫,將以開放免費的方式,提供給研究者使用。

歷時五年終於建構出的巨型資料庫,也到今日在軟體和硬體上也進展到得以處理巨型資料的運算能力。Li 和她的團隊,應用機械學習中以人腦內的神經網路為設計原型的類神經網路演算法(Neural Network),來建構如黑盒子般的機械訓練架構。

和人類的腦神經構造類似,黑盒子中有許多排列整齊的電子神經元,每一神經元由所謂的闕值,來決定神經元是否會被激發,並將神經訊息傳遞給下一個神經元。神經元之間則有著許多鏈結,每一鏈結則被賦予不同的權重,用來決定神經訊息是否能長途傳遞至高階的神經元中。

在學習的過程中,類神經網路黑盒子,會用回饋路線,來加以調整鏈結的權重,使網路的架構更適於描述訓練資料。比起其他機械學習的演算法,類神經網路演算法更符合人類的思考方式,將受感覺細胞激發的訊息,轉換為抽象的概念,並將概念之間的關係以有意義的方式連結。

若以數學的語言來說,黑盒子內部則是將複雜的函數以階層式的圖形模型來組成,每一階層裡都有相當簡單的基底函數,而每一由低階的網絡構成的高階網絡,其輸出則是由基底函數的非線性組合來藉以代表影像中的物件們在不同層次中所代表的抽象觀念。通常網路內的階層數愈高,愈能捕捉更高階的抽象概念,這也是近年來在機械學習領域,相當熱門的一個領域:『Deep Learning』 (深度學習)。

有了巨量的影像資料,在透過複雜的深層類神經網路訓練,電腦便能建構出意義和語法皆為正確的句子。

有了巨量的影像資料,在透過複雜的深層類神經網路訓練,電腦便能建構出意義和語法皆為正確的句子。

Li 和她的團隊,在巨量影像資料庫和龐大類神經網路在高運算能力的硬體協助下,已經能成功的辨認各式各樣的物件,讓人驚喜的是,她在演講中呈現的結果,電腦在進行物體辨識時,還允許一定程度的模糊,如同人類一樣對於無法確定的物體,會採取較為保守和廣闊的類別。

但,能夠成功辨識物體,僅只是教會電腦去看的第一步,透過與自然語言處理技術的結合,電腦能說出簡短而正確的描述照片中的主題,正呼應著演講一開始,所播放幼兒描述照片主題的影片。然而,誠如 Li 在演講中,所展現的成果,雖然電腦已經可以組成語法簡單且語義正確的句子,卻仍然無法如人一般辨識情緒,和瞭解隱喻。

當 Li 展示這項成果時,在場的觀眾們熱烈的鼓掌,彷彿一起見證了人類登陸月球的跨世紀時刻,縱然電腦說出的句子單調呆板,缺乏人類的想像力和言語中的隱喻與情緒,然而就像阿姆斯壯踏入月球疆土的第一步,這一步引領太空科學家們進入太空時代,也讓許多年輕科學家們前仆後繼地追隨這第一步,勇敢地去挑戰更艱難的問題,進而夢想著建構一個更多彩多姿的未來。

目前電腦視覺和自然語言的發展,以能讓電腦以結構和意義正確的句子來描述影像,然而比起人類語言中的詩意,卻仍是相差甚遠。

目前電腦視覺和自然語言的發展,以能讓電腦以結構和意義正確的句子來描述影像,然而比起人類語言中的詩意,卻仍是相差甚遠。

我有幸在年輕的時候,接觸了所謂的機械學習在分子生物上的應用。當時,個人電腦也才剛進駐家庭,成為居家必備的電器之一。如今已經成為網路資訊搜尋的代名詞 google 也才剛蓬勃發展,並不像今日因為現代人對網際網路的過度依賴,而頻繁在虛擬世界中留下許多數位足印。然而,這些在短短數年內,便累積而成的龐大數位資料,可供任何感興趣的使用者下載分析,也引領科技業進入了所謂大數據時代。

Li 以及她的團隊所達到的成果,無疑地是向已安眠許久的圖靈提出支持的證據:

是!我們能教會電腦如何去『瞭解』。

對於,戴著厚重厚重眼鏡,鎮日坐在電腦前,嘗試用程式語言與電腦溝通的我,對於此生或許有幸能看到電腦從無生命的電子零件,進而具備和人類旗鼓相當的思考能力,感到無比的欣喜和激動。彷彿幾千萬年人類演化的歷程,得以使用無生命的電腦重新模擬而呈現。

電腦軟體同時具備能將複雜模型簡單化和簡單模型逐一複雜化的特性,讓許多無法在自然條件下從事的實驗,在資訊科學家和數學理論學者共同推導撰寫的模擬程式中,事先得到理論性的驗證。

Li 的研究團隊利用巨型資料和與人腦相似的類神經網路進行視覺辨認訓練,並成功建構簡單語法,未來甚至計畫延展至語意的推論,這項研究,或許提供了另一個窗口,來協助自閉症或腦傷患者重拾正常人的生活。

在演講的最後,Li 以一個母親的心情,勾勒出她這份研究的遠景:

有一天,毫不感到疲倦的機械將擁有和人類匹敵的智慧,會成為人類的夥伴,進而突破人類生理的界限,到達人類所無法觸及的疆土,以人類般好奇觀察的視野,替我們帶回寶貴的資料。

至於史帝芬霍金所關心的魔鬼終結者般的問題,誠如人工智慧學者 Ray Kurzweil 在時代雜誌中所言,

將人工智慧的可能威脅視為人性中必然的挑戰,將人工智慧可能的罪衍視為人類行使道德的標的,將人工智慧視為促進人類福祉的工具,而非令人敬畏的怪物。

更或許,如果我們能教會電腦去看,去瞭解,或許我們也能教會電腦『懂得』閱讀人類的情緒,並且回應著慈愛和關心。

Li 在演講的最後,為我們勾勒了一個和人工智慧和諧相處,相輔相成的遠景。

Li 在演講的最後,為我們勾勒了一個和人工智慧和諧相處,相輔相成的遠景。


本文於 2015/9/17 首先發佈於個人網站中。

註釋:

  • Fei Fei Li 在華人社群中多以她的中文名字李飛飛而知。

圖片來源:

  • Fei Fei Li TED Talk

參考資料及延伸閱讀:

  1. IBM Watson’s  First Jeopardy Show
  2. Fei Fei Li 2015  TED Talk
  3. Fei Fei Li’s  Wiki
  4. Ray Kurzweil on Times, Don’t Fear Artificial Intelligence
留言
avatar-img
留言分享你的想法!
avatar-img
Rene Wang的沙龍
71會員
35內容數
<p>專為年輕的女孩設計的科學/資訊科技寫作計畫,希望讓每位女孩在體脂肪、青春痘與暗戀對象之外,還能找到新的生活樂趣。</p>
Rene Wang的沙龍的其他內容
2021/03/19
一個好的自然語言模型,若出現了語言模型的 vocabulary set 未曾收錄的單字,語言模型就會產生 Out-of-Vocabulary (OOV)。 本文介紹 subword algorithms 介於 word-level 和 character-level 解決 OOV 的方法。
Thumbnail
2021/03/19
一個好的自然語言模型,若出現了語言模型的 vocabulary set 未曾收錄的單字,語言模型就會產生 Out-of-Vocabulary (OOV)。 本文介紹 subword algorithms 介於 word-level 和 character-level 解決 OOV 的方法。
Thumbnail
2021/02/26
本篇文章前半段先對網路裁減做簡單介紹,後半段針對彩卷假說作文獻式的探討。網路裁減是一種重新發現等價小網路的方法,主要目的在為 over-parameterized 的方式訓練而成的類神經網路提供一個精簡版的網路,有助於在資源受限的平台上運行。彩卷假說則是探討權重初始值和網路裁減之間的關係。
Thumbnail
2021/02/26
本篇文章前半段先對網路裁減做簡單介紹,後半段針對彩卷假說作文獻式的探討。網路裁減是一種重新發現等價小網路的方法,主要目的在為 over-parameterized 的方式訓練而成的類神經網路提供一個精簡版的網路,有助於在資源受限的平台上運行。彩卷假說則是探討權重初始值和網路裁減之間的關係。
Thumbnail
2021/01/08
多任務學習指的是使用多個相關的任務目標(Multiple objectives)來學習共享的表示方法。在這篇文章中,我們會介紹 google 的 youtube recommender 系統就是利用 Multi-gate Mixture of Experts 來達成多目標多任務學習的方式。
Thumbnail
2021/01/08
多任務學習指的是使用多個相關的任務目標(Multiple objectives)來學習共享的表示方法。在這篇文章中,我們會介紹 google 的 youtube recommender 系統就是利用 Multi-gate Mixture of Experts 來達成多目標多任務學習的方式。
Thumbnail
看更多
你可能也想看
Thumbnail
TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空,一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮,突然發現幾家商場都又開始重新上架,價格也都回到正常水準,估計是官方又再補了一批貨,想都沒想就立刻下單! 同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷!
Thumbnail
TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空,一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮,突然發現幾家商場都又開始重新上架,價格也都回到正常水準,估計是官方又再補了一批貨,想都沒想就立刻下單! 同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷!
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
這天李天明工作之餘最大的愛好就是研究電腦。他對人工智慧、機器學習等領域有著濃厚的興趣。 這天,李天明像往常一樣,在網上瀏覽電腦資訊。突然,他看到了一個奇怪的網站。這個網站上全是關於人工智慧和機器學習的晦澀難懂的文字和公式。李天明對這個網站很感興趣,他花了好幾天時間,終於弄明白了網站
Thumbnail
這天李天明工作之餘最大的愛好就是研究電腦。他對人工智慧、機器學習等領域有著濃厚的興趣。 這天,李天明像往常一樣,在網上瀏覽電腦資訊。突然,他看到了一個奇怪的網站。這個網站上全是關於人工智慧和機器學習的晦澀難懂的文字和公式。李天明對這個網站很感興趣,他花了好幾天時間,終於弄明白了網站
Thumbnail
艾倫·麥席森·圖靈,OBE,FRS是英國電腦科學家、數學家、邏輯學家、密碼分析學家和理論生物學家,他被譽為電腦科學與人工智慧之父。 二次世界大戰期間,「Hut 8」小組,負責德國海軍密碼分析。 期間他設計了一些加速破譯德國密碼的技術,包括改進波蘭戰前研製的機器Bombe,一種可以找到恩尼格瑪密碼機設
Thumbnail
艾倫·麥席森·圖靈,OBE,FRS是英國電腦科學家、數學家、邏輯學家、密碼分析學家和理論生物學家,他被譽為電腦科學與人工智慧之父。 二次世界大戰期間,「Hut 8」小組,負責德國海軍密碼分析。 期間他設計了一些加速破譯德國密碼的技術,包括改進波蘭戰前研製的機器Bombe,一種可以找到恩尼格瑪密碼機設
Thumbnail
最近打算跟著 李宏毅老師上傳至 Youtube 上的課程【生成式AI導論 2024】來做學習,算是邊做個記錄~
Thumbnail
最近打算跟著 李宏毅老師上傳至 Youtube 上的課程【生成式AI導論 2024】來做學習,算是邊做個記錄~
Thumbnail
圖靈研究所舉辦的圖靈講座系列,邀請數據科學和人工智慧領域的專家來分享最新的研究成果和見解。本講座探討了生成式AI的無限可能, AI的進化之路,面對挑戰與倫理問題,未來展望,圖靈測試與AI的意識問題等多個主題,對AI技術的發展提供了深刻見解和引發思考....
Thumbnail
圖靈研究所舉辦的圖靈講座系列,邀請數據科學和人工智慧領域的專家來分享最新的研究成果和見解。本講座探討了生成式AI的無限可能, AI的進化之路,面對挑戰與倫理問題,未來展望,圖靈測試與AI的意識問題等多個主題,對AI技術的發展提供了深刻見解和引發思考....
Thumbnail
AI,人工智慧,其實不是這幾年才有的,自從圖靈(Alan Turing)提出圖靈機模型和發表【計算機器與智慧】(Computing Machinery and Intelligence)論文以來,人工智慧,一直是程式設計人員、電腦工作者心目中的聖杯,讓我們一起來探討AI的未來。
Thumbnail
AI,人工智慧,其實不是這幾年才有的,自從圖靈(Alan Turing)提出圖靈機模型和發表【計算機器與智慧】(Computing Machinery and Intelligence)論文以來,人工智慧,一直是程式設計人員、電腦工作者心目中的聖杯,讓我們一起來探討AI的未來。
Thumbnail
兩位思想家的論述在語意分析的層面上皆有其論述成立的基礎,不過,剛好沒有涵蓋到的問題是我們如何認定一個有思考能力的「個體」?
Thumbnail
兩位思想家的論述在語意分析的層面上皆有其論述成立的基礎,不過,剛好沒有涵蓋到的問題是我們如何認定一個有思考能力的「個體」?
Thumbnail
自AlphaGo在 2016 打敗棋王李世乭以來,人工智慧、深度學習等字眼相信大家早已不陌生。面對這個 AI 急速發展的時代,你對這「智慧」了解有多少呢?推薦這本《AI製造商沒說的祕密》,帶你一探AI的崛起之路,思索「它」的可能與危險。
Thumbnail
自AlphaGo在 2016 打敗棋王李世乭以來,人工智慧、深度學習等字眼相信大家早已不陌生。面對這個 AI 急速發展的時代,你對這「智慧」了解有多少呢?推薦這本《AI製造商沒說的祕密》,帶你一探AI的崛起之路,思索「它」的可能與危險。
Thumbnail
藏在程式碼行間的偏見 Joy 後來比對了各大科技公司的演算法如:IBM, Microsoft, Face++ 和 Google,結果發現這些演算法辨認男性臉孔的準確率高於女性臉孔,而辨認淺膚色臉孔的準確率也大於深膚色臉孔。 而會產生這個結果的重點就在於片中 Joy 所說的:「資料主宰命運」。 結語
Thumbnail
藏在程式碼行間的偏見 Joy 後來比對了各大科技公司的演算法如:IBM, Microsoft, Face++ 和 Google,結果發現這些演算法辨認男性臉孔的準確率高於女性臉孔,而辨認淺膚色臉孔的準確率也大於深膚色臉孔。 而會產生這個結果的重點就在於片中 Joy 所說的:「資料主宰命運」。 結語
Thumbnail
每周一篇文章的讀書會心得報告摘要與筆記,本次分享文章為:AI 並非萬能!越洋採訪史隆獎得主、UCLA 台籍教授:2 缺陷要靠人類修補。 1.人工智慧技術; 2.資料寬廣度不足時,就會複製人類偏見; 3.即便條件相同,也無法每次都做出正確判斷; 4.餵指令給 AI 要多元化,嘗試換句話說、刻意混淆。
Thumbnail
每周一篇文章的讀書會心得報告摘要與筆記,本次分享文章為:AI 並非萬能!越洋採訪史隆獎得主、UCLA 台籍教授:2 缺陷要靠人類修補。 1.人工智慧技術; 2.資料寬廣度不足時,就會複製人類偏見; 3.即便條件相同,也無法每次都做出正確判斷; 4.餵指令給 AI 要多元化,嘗試換句話說、刻意混淆。
Thumbnail
麻省理工的研究員喬.布蘭維尼利用人工智能的技術製作了一面能識別臉部的鏡子,可是鏡子無法辨識她的面孔,但當她戴上白面具就可以被辨識,這時她才注意到引用的智能編碼辨識人臉有著很大問題,它無法準確辨識黑人女性的臉孔。
Thumbnail
麻省理工的研究員喬.布蘭維尼利用人工智能的技術製作了一面能識別臉部的鏡子,可是鏡子無法辨識她的面孔,但當她戴上白面具就可以被辨識,這時她才注意到引用的智能編碼辨識人臉有著很大問題,它無法準確辨識黑人女性的臉孔。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News