今年七月,我跟指導教授在土城開 AI 結合 ESG 的課;我們負責 ESG,AI 的課由資訊顧問公司的專家負責。開課單位發現我有 iPAS AI 應用規劃師的證照,她們問我能不能開 AI 的課。在溝通的過程中,我發現她們想開的是那種「教你用各種 AI 應用工具」的課。
只要願意上網搜尋,你要 15 種或是 150 種工具,我都可以生出來。對我來說那些課誰都可以開。消費者真正需要的是使用 AI 的策略。
這個系列就是 AI 應用策略課。
核心問題:AI 會取代人類嗎?
自從 AI 能夠處理人類的語言、能夠與人類自然對話之後,就產生一個問題:AI 有沒有可能取代人類?有沒有可能 AI 就能做人類做的工作?如果 AI 可以做這些工作,那還要人類幹什麼?
學習使用任何工具的時候,我都先問一個問題:這個工具的運作邏輯是什麼?接觸現在這種 AI 的時候,我第一個問題就是:當代 AI 的運作邏輯是什麼?我們現在講的人工智慧,智慧在哪裡?
也就是說,要先理解當代 AI 發展的敘事邏輯,才能知道現在充斥的 AI 應用,本質到底是什麼。
人們如何思考機器智慧
自從打孔卡片式的電腦發明以來,人們就在思考:如果機器可以算數,那麼機器能不能思考,跟人類一樣?
圖靈測試 Turing Test
為了判斷機器能不能思考,1950 年 Alan Turing 提出圖靈測試(Turing Test)。Benedict Cumberbatch 演的電影《The Imitation Game》(模仿遊戲,2014)就是講圖靈的故事。有些人認為圖靈被壓迫是因為他是同性戀,但我認為同性戀只是一個藉口;圖靈太聰明了,導致別人想要壓迫他。
什麼是圖靈測試呢?簡單地說,就是讓人類專家與普通人類和人工智慧分別對話;如果專家沒有辦法區分哪一個談話對象是人類、哪一個是人工智慧的時候,我們就認為這個人工智慧具有跟人類一樣的智慧。
而現在的 LLM,對圖靈來說,很可能具有跟人類一樣的智慧。這就進一步牽涉到中文房間問題。
中文房間 Chinese Room
在人工智慧研發的領域,有一個很有名的問題叫中文房間(Chinese Room),1980 年由 John Searle 提出。中文房間的問題是這樣子的:
你眼前有一個有窗口的小房間,裡面有個人。你把中文書寫的問題紙條遞進窗口,一段時間後屋子裡的人會把中文書寫的答案紙條遞出來,而且答案符合你的問題。對你來說,屋子裡的人應該懂中文,對吧?
事實上,中文屋裡面的人不懂中文,但屋子裡有各種中文的詞彙和語法規則。當屋子裡的人收到你的問題時,他利用屋子裡的詞彙和語法規則理解問題,然後將答案用正確的中文詞彙和語法規則組織起來,成為你看到的中文答案。你看不到屋子裡的運作情況,你會認為屋子裡一定有人懂中文。
中文房間問題促使人們思考:有沒有可能建造一種機器,裡面裝滿某個知識領域的一切資訊,當我們對這個機器提出問題的時候,機器就會根據那些知識,組織成我們需要的資訊?如果這個運作過程順利,這個機器就相當於具備能夠跟人類對答的智慧——即使它不「懂」任何東西。
而現在的 AI ,顯然可以用中文回答任何問題。所以現在的 AI 已經具備智慧了嗎?
從 NLP 到 LLM
當我們研究電子元件構成的機器如何理解人類語言的時候,我們的工作叫做自然語言處理(NLP, Natural Language Processing)。
NLP 要面對的問題
人類語言的元素是有限的:英文 26 個字母;越南字母 29 個,聲調六種;日文平假名片假名共約 100 個;中文的注音符號 37 個,聲調五種,但日常用字至少兩千字。這些有限的語言元素,可以組合成無限的詞彙和句子,任何一個自然人都可以輕易地用自己的母語,創造無窮多的句子。我們要怎麼樣讓機器理解人類所創造的、無窮無盡的可能性,並且產生適當的回應?
早期做法:ELIZA 與停用詞
能夠跟人類對話的機器其實早就有了。當年最有名的叫 ELIZA(1966 年,MIT 的 Joseph Weizenbaum 開發),ELIZA 可以跟你聊天,你講一句它講一句。ELIZA 如何回答人類的句子?它其實是抓使用者輸入句子當中的關鍵字。例如「我吃過飯了」,它抓的關鍵字是「吃」跟「飯」。你提到吃飯,它就回應吃飯有關的句子。
那「我」「過」「了」這些詞呢?這些詞出現的頻率太高了,會讓電腦以為有這些詞的句子都是相關的,而且當時電腦運算性能不強,所以當時的做法是:只處理「吃」「飯」這種有主題意涵的詞彙,「我」「過」「了」這些無法用來區分主題的詞彙叫做停用詞(stop words),遇到就不處理。
這是 2010 年代以前自然語言處理的做法。
轉折點:AlphaGo 與 Transformer
2016 年 3 月,AlphaGo 以 4:1 擊敗世界圍棋冠軍李世乭。我個人把 2016 年 AlphaGo 的成功當作新一代 AI 發展的里程碑,展現人們重新思考「機器思考」的原理。
圍棋是人類發明過最複雜的遊戲,可能局面數超過 10^170,比宇宙中的原子數還多。但人類語言的可能性更多。那麼 NLP 這個領域有什麼突破呢?
2017 年出現了 Transformer 架構(Google 發表論文《Attention Is All You Need》)。在 Transformer 的框架之下,機器不再忽略那些看似沒有實質意義的詞彙。它可以區分「我吃飯」跟「我吃過飯了」這樣的句子,能夠判斷「過」「了」這樣的語法詞彙對句子意涵的影響。停用詞的時代過去了,注意力機制的時代到來了。
而對我這個認知心理學愛好者來說,注意力就是一切。正確的注意力分布,意味著正確的認知方式。當代的 AI 以注意力機制為基礎,那麼機器的注意力會如何運作?
LLM 的本質
當前的 AI,事實上是大語言模型 LLM(Large Language Model)。
什麼是 Model
Model 是一種處理變數的工具;如果你輸入 A,模型會輸出 B。如果:
f(x) = x+1,g(x) = x × 2
當 x = 2,
f(x) = 3,g(x) = 4
Model 的內容不同,輸出就不同。
大語言模型叫做語言模型,代表它可以處理人類的語言。但很多人不知道一件事:大語言模型也只能處理語言。
LLM 只能處理語言
可是,現在很多 AI 可以處理圖片啊?
如果你自己訓練或微調過 AI,你會發現大語言模型本身根本只能處理語言,或者說文字 text。想要用 LLM 處理圖片、聲音、影片,都要在 LLM 外面掛上一堆程式工具,讓 LLM 可以理解這些多媒體訊息。如果沒有這些工具,LLM 連 PDF 都無法理解。但如果你把 PDF 的文字內容複製貼給 AI,任何 AI 都可以理解。
這就是為什麼 AI 文生圖(text-to-image)、文生影(text-to-video)的服務都相當昂貴——生出影像本身就是很困難的事情;不只是對你,對電腦也是一樣。
「大」是有多大
大語言模型的「大」是什麼意思?它的訓練資料集很大。
我時常與 Claude 討論小說。有一次 Claude 說,她是「人類寫作經驗的集合體」。然後我發現她是對的;沒有人類可以像她一樣看過那麼多小說。
大語言模型看過世界上所有它能夠看到的東西。網路上的資料,只要 AI 公司可以用爬蟲程式抓下來,就可以成為 AI 的訓練資料集。「大」語言模型真的很大,它背後的訓練資料遠超過任何單一人類的知識。
一句話解釋 LLM
如果要我用一句話解釋大語言模型,我會說:
所謂的大語言模型是這樣的東西:它看遍人類寫作成果、能夠用你的語言生成滿足你需求的回答。
工作機制:文字接龍
但到現在為止,我們只討論了當代 AI ,所謂大語言模型的工作流程,我們還沒說到大語言模型的工作機制。容我引用李宏毅教授的說法:
大語言模型的工作機制其實就是文字接龍。
只要你能夠理解這句話,你就能夠理解:為什麼現在的 AI 經濟很可能是一場新時代的科技泡沫,就如同當年的 .com 泡沫一樣。

















