著名的物理學家Michio Kaku在youtube影片中提到,現今已有科學家能透過fMRI紀錄跟AI、重現人們的視覺畫面,未來將能用此種技術,紀錄跟重播我們的夢境。聽起來非常吸引人,於是我想知道到底這個可能性有多高?
他說的這位科學家,叫Jack Gallant,目前是UC Berkeley心理學教授,主要研究領域為認知神經。他在自己的研究領域做得十分成功,2011年發表在Current Biology的研究「重建大腦觀看自然電影的視覺經驗」(Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies)使他聲名大噪,還擠上了時代雜誌2011年「50個最佳發明」的排行中。
這個研究到底如何做成的呢?如果只是重建人們看電影的畫面,為何可以說它就能重建出人的夢境?
關於這個實驗,簡單來說是這樣的:
受試者先躺在fMRI中觀看影片畫面,紀錄下其大腦神經反應的血流變化。然後把數據跟影片畫面一起丟給電腦進行學習。接著受試者會再另外看一組新的影片畫面,同樣由fMRI紀錄大腦數據,但這次經過學習的電腦只接收人類的大腦數據,不會有影片畫面。學習後的電腦再藉由youtube影片作為其資料庫,重建出大腦最有可能看到的影像畫面。
電腦最後重建出的畫面有多近似?下圖左為受試者實際看到的影片畫面,而右邊則是電腦靠大腦數據重建的畫面。
當我還沒理解這個實驗是如何進行時,只覺得這個畫面只能看出雛形而已。Jack Gallant在TED也提到重建大腦視覺畫面的總總困難,尤其是紀錄大腦神經變化的部分。一是其實每個人的大腦都有差異,同樣的畫面,會引起每個人不同的大腦區塊神經反應,即便我們的大腦的確有比較共同的專職區域,但細微的部分仍會因個人經驗有差異。還有就是受測者在觀看影片同時,可能也想著其他事,譬如他很餓,可能就不知不覺想到某家的雞腿飯。另外,當我們的注意力聚焦不同事物時,也會加強或弱化視覺感受,如果你是個神奇女超人粉絲,看電影時只要Gal Gadot一出現,其他人物或佈景都會彷彿消失。如果你現在正在搜尋一隻走失的貓咪,你看很多東西都可能誤認成貓。
除了人以外,還有器材的問題。
實驗是採用fMRI紀錄人們的大腦變化。但fMRI偵測的是神經元活動時所引發的「血流活動」,並不是大腦神經活動本身,也就是說這個測量數據是比較次級的,有點像看著水面的倒影來猜想本人長怎樣。也因此,科學家在觀看fMRI數據時,會跟實際上人腦的神經活動有相當程度的時間落差。這意味著,fMRI在測量快速變化的神經活動上,會減損一定的即時準確性。尤其是測量人們觀看影片,此種非靜態型的視覺刺激。
另一種能補足fMRI缺點的器材是EEG,一種貼在人腦頭皮上的眾多電極片,可即時測量大腦所產生的電位變化。雖然EEG擁有比較好的時間解析度(temporal resolution)。但科學家卻很難從腦電圖的數據中得知這些神經元活動的位置。換句話說,在空間解析度(spatial resolution)上,fMRI還是略勝一籌。
因為實驗主要是在重建人們視覺的經驗。但若要求電腦學會解譯(decoding)人腦訊號,就必須先讓電腦學習人腦如何編碼(encoding)。
以前神經學家已提出很多關於,人腦不同部位掌管不同功能的證據,大家耳熟能詳的右腦開發廣告,也是根植於這種假說。但事實上,大腦神經元相互連結的程度高於我們的想像,卻同時也分化的十分細緻。
Nancy Kanwisher就發現了,就聽覺而言,大腦某區域對人們談話會有反應,另一區域則只對某些高音有反應,某個區域卻在你思考各種難題時都會活躍。
同樣的,在視覺感知上,也不是說只有某一大腦區域負責執掌,隨著畫面中出現的內容不同,都可能會引發不同的大腦區域活動。若要提高電腦解譯的準確性,電腦必須先知道人腦不同區域在視覺中所扮演的角色,某個神經活動牽連的是什麼?是物體的高度?形狀?分辨動物人類?還是光影刺激?是否有多個大腦部位,會對某個畫面同時產生反應等等。實驗裡,電腦藉由機器學習(machine learning),將不同的大腦活動跟影片進行連結。
Jack Gallan的影片中,示範了電腦如何針對大腦個別部位的功能,去重建影片,如某些大腦區域能看出視覺的輪廓,某些高層次的部位則涉及畫面的語意認知。電腦最終綜合這些學習,變成一個能解譯人類整體視覺經驗的AI。
綜合以上,我自己的結論是:
- 目前電腦尚未能解譯出清晰的畫面,是受到偵測大腦活動的器材所限。故隨著科學機械進步,這個問題就能解決。人類會更清楚即時的知道,大腦哪個區域部位正在活動。
- 要說重建「視覺經驗」是有疑問的。因為根據Marvin Chun的實驗,人類光靠「想像」,也會引發跟視覺經驗同樣的腦區域活動。這就是為何科學家會認為這項技術可以讓我們重建夢境,夢境究竟是「視覺經驗」還是「想像」或都是?日本有科學家已經嘗試以同樣的技術重建人的夢境了。
- 電腦重建的畫面來源Youtube,是既有的影像資料庫。實驗裡Jack Gallan讓電腦吸收youtube影片材料(當中剔除受試者看過的影像),然後從中比對選取最相似的畫面進行疊加。意指電腦只能從有限的影像中去「重現」,這大概也是重構影像不夠準確的緣故。也就是說在未來,越是豐富的資料庫跟運算速度,電腦的解譯能力就越強。
那到底靠這項技術的發展,對夢境錄製重放的幫助有多少,我仍有一些疑問。假如電腦必須靠現有的資料庫去重建經驗,那許多荒誕離奇、超現實的夢境,會不會難以被解譯?做夢時,我擁有的知覺可能不僅是視覺,也包括味覺、嗅覺、聽覺、觸覺,這些感官覺知,按此技術的道理,應該也能被解譯重建;但同樣地,人類知覺資料庫的建立仍會是一個難題,此外,某些知覺的個人差異性也可能會更大。因此,這項技術最終要能精確解讀重現,就必須針對每個人開發出一套資料庫。
最後,聽到這裡,可能原先的興奮感已透露出一絲恐懼。如果以後電腦都能解譯我們所思所想,我們還有隱私嗎?如果一切的知覺經驗都被數位化、數據化,握有這些數據的人能會是我們自己嗎?還是其他任何人?
當我們不在需要靠「表達」來溝通,而是透過科技直接「解譯」自己。也許到那時我們會想,有場讓自己記不起來的夢也未嘗不是一件好事。
YOUTUBE影片:Human brain mapping and brain decoding. | Jack Gallant |
如果你願意點擊下方拍手,讓我知道自己的文章有被閱讀,我會十分受到鼓勵~每篇文章能拍手5次,無需任何支出,但卻可以幫助開放創作的書寫者,將流量回饋給自己:)