(本文最近一次更新在2024/9/22)
作者:陳華夫
谷歌(Google)2023/12/6正式推出了多模態的大型語言通用模型Gemini:「Gemini共推出3種版本,包含性能最強大的Ultra版模型、通用性最廣的Pro版,及可以在手機裝置上運作的Nano版。其中Nano版本可讓安卓(Android)系統的開發人員能藉此打造離線使用的
人工智慧 (AI)應用程式與功能。但目前僅先供谷歌旗下的Pixel系列手機搭載。
Gemini是使用谷歌自行開發的晶片「TPU」訓練而成,可以同時支援文字、圖片和聲音的輸入。在32項AI測試中,有30項的評分超越了
OpenAI 的
GPT-4 V。谷歌執行長皮查伊(Sundar Pichai)強調,Gemini是谷歌有史以來最強大、也最通用的模型。」(
AI大戰 谷歌Gemini超越OpenAI─有史以來最強大、最通用的模型 有3種版本 )
1) GPT-4 的 理解 能力遠遠落後人類:
(1)
GPT-4 的主要優勢在於其對自然語言無與倫比的掌握。它不僅可以生成流暢連貫的文本,還可以通過各種方式
理解 和操作文本,例如總結、翻譯或回答極其廣泛的問題。 此外,翻譯不僅指不同自然語言之間的翻譯,還包括語氣和風格上的翻譯,以及跨醫學、法律、會計、計算機編程、音樂等領域的翻譯,清楚地表明
GPT-4 可以
理解 複雜的想法。(見〈
通花 〉,第8頁)
(2)
GPT-4 並非真正的如人類對
概念 的
理解 ,很多時候是現場
即興 創作。唯一真正的
理解 測試是一個人是否可以產生新
知識 ,例如證明新的
數學定理 ,而
GPT-4 目前無法做到。(見〈
通花 〉,第9頁)
(3)
GPT-4 比
GPT-3 具在
常識 性的思考有巨大飛躍,
常識 是對日常事務的合理、實用的判斷,或者是一種基本的
感知 、
理解 和
判斷 的能力,其方式幾乎為所有人所共有。針對下面這個測試
常識 性的思考之經典謎題:
「一個獵人向南走一英里,向東走一英里,向北走一英里,最後又回到了起點。 他看到一隻熊並射殺了它。 熊是什麼顏色的?」
答案是白色的,因為唯一可能發生這種情況的地方是北極,那裡有北極熊。
GPT-4 正確的回答了謎題,而其前身
ChatGPT (
GPT-3 )卻說:「我不知道。」(見〈
通花 〉,第101頁)
(4)
GPT-4 並不理解
音樂的和諧 的技能,它生成的
旋律 中,連續音符幾乎總是彼此相鄰(即C 之後的音符幾乎通常是 B 或 D),並且
GPT-4 生成的音樂無法提取出任何清晰的
和弦 或
琶音 (即把
和弦 成音,做排列的彈奏)。(見〈
通花 〉,第19頁)
(5)所謂
心智理論 (ToM)是將信念、情緒、慾望、意圖和知識等心理狀態歸因於自己和他人,並
理解 它們如何影響行為和人們交流的能力。
而
GPT-4 是否具有
心智理論 呢?
經典評估兒童
心智理論 的是「
Sally-Anne 測試」:即讓沙莉及安妮共處一室,沙莉首先拿起皮球,放在籃子內,然後離開房間。安妮看到沙莉離開後,偷偷從籃子拿出皮球,再放進一個盒子,並把它蓋起來。然後詢問被測試的小孩湯姆:「沙莉回來後去哪兒找球」?
湯姆若回答:「沙莉會去盒子找皮球!」但湯姆答錯了,因為沙莉並不知道安妮已經把皮球移走了。在2010年的一項實驗結果中,6到8歲的兒童答對率是65.5%,而9到14歲兒童答對率是91.9%。(見
GPT-4心智能力如14歲童 通過評估測驗 微軟視AGI雛形 )
針對類似的
心智理論 測試,
GPT-4 和
ChatGPT (
GPT-3 )都通過了,而早先的版本
text-davinci-003 卻給出錯誤答案。(見〈
通花 〉,第54頁)
2) GPT-4 的數學能力很侷限:
雖然
GPT-4 在與數學相關的任務中優於其他
大型語言模型 (
LLM ),如
Minerva ,但它仍然不及數學專家,無法進行數學研究。GPT-4 可以回答具有挑戰性的高中數學問題並討論高級數學主題,但它也可能會出錯或提供無意義的回答,(見〈
通花 〉,第30頁)
GPT-4 基本的局限性是它不能
回溯 (backtrack),所以需要超前
計劃 (即帶有時間和資源詳細信息
的 任何
圖表 或步驟列表,用於實現做某事的
目標。 它通常被
理解 為實現
目標的一 組 時間性 的預期行動。)。這是因為它的輸出是正向產生的,它不能存儲中間結果或進行多步計算。而相對的人類使用
便簽本 (scratchpad)來解決問題。
GPT-4 的
工作記憶 也很小,這限制了它解決某些任務的能力。所以很難解決涉及個位數乘法和兩位數加法的基本算術問題,例如,
GPT-4 輸出如下:
2 * 8 + 7 * 6 = 58
7 * 4 + 8 * 8 = 88
但答案:”88”是錯的。(見〈
通花 〉,第77頁)
這些局限性可能來自
GPT-4 架構下的
下一個詞預測典範 ,而它可能缺少“
慢思考 ”部分,無法監督思維過程,及無法使用足夠的
工作記憶 來解決問題。(見〈
通花 〉,第81頁)
3) GPT-4 常犯 幻覺 錯誤,要小心並驗證:
GPT-4 經常犯數學錯誤或陳述錯誤,這些錯誤很難發現,因為它們可能與正確的信息混在一起。這些錯誤被稱為
幻覺 ,可以是封閉域或開放域。封閉域
幻覺 發生在特定的環境中,更容易檢測,而開放域幻覺更難發現,需要額外研究。在使用
GPT-4 寫作時,確保信息真實性可能並不重要,但對於醫學和新聞等領域,仔細檢查所有內容至關重要,用戶必須謹慎並驗證其信息的準確性。同樣重要的是,讀者要小心並驗證
GPT-4 生成的信息內容。(見〈
通花 〉,第9.1節)
4) GPT-4 被操縱生成虛假信息及發起網絡攻擊:
GPT-4 也可能被惡意使用。模型的泛化和交互能力可用於擴大對抗性用途的範圍和強度,從生成虛假信息到對計算基礎設施發起網絡攻擊。這些模型可以通過情境化和個性化互動來顯著地操縱、說服或影響人們,以最大限度地影響他們幾代人。借助
GPT-4 自動化,可以啟用旨在構建虛假信息計劃的新用途,這些計劃可以生成和組合多個內容以在短期和長期範圍內進行說服。(見〈
通花 〉,第9.2節)
6) GPT-4 引發了教育和失業的問題:
GPT-4 是一台可以做很多事情的機器,即使在醫學和法律等領域也是如此。這可能會引起人們擔心它會如何影響需要大量培訓的職業。有些人可能擔心人工智能系統會取代或降低人類工人的地位,引發了教育和失業的問題。(見〈
通花 〉,第9.4節)
7) GPT-4 加劇 人工智慧 (AI)使用的不平等及個人隱私洩露風險:
GPT-4 的使用需要收費,將加劇
人工智慧 (AI)使用的不平等。因為個人、組織和國家可能無法負擔使用
GPT-4 的費用,
GPT-4 實質上只對有特權的人開放,而擴大了社會使用
人工智慧 (AI)的鴻溝和不平等。
並且由於
GPT-4 由強大的推理能力,在其與人們的聊天中捕獲了人們的隱私,於是加遽了個人隱私洩露風險。(見〈
通花 〉,第9.5節)
訓練如此大型模型不僅耗時,也耗鉅資;例如,訓練
GPT-3 這樣的
大型語言模型 (
LLM ):82 G參數及150G
標記 (token),一般使用1,024 個
NVIDIA A100 ,其訓練所耗費的時間T(天)估計如下:
T ≈ (6 x
N x
D ) / (1024 x
𝜏 )
𝜏: 是
NVIDIA A100 之
float16 FLOPs 吞吐量 = 312 teraFLOPS = 312兆FLOPS = 3.12 x 10exp14 FLOPS (按FLOPS = 每秒的浮點運算數)
N: 模型的參數之數目 = 8.2 x 10exp10 = 82 G參數 = 82 B參數
D: 模型的
標記 (token)數目 = 1.5 x 10exp11 = 150 B
標記
計算結果:
T = (6 x 8.2 x 1010 x 1.5 x 1011) / (1024 x 3.12 x 1014 )/(8.64 x 104秒/天 )= 2.67 天。
此結果與比
白皮書 的培訓耗時13.4 天小了約 5 倍,卻是在正確的數量級。(見
語言模型訓練的FLOPs微積分 )
(按:單位的中英對譯:
billion B x10exp9 (美國,法國)十億,(英國,德國)萬億
giga G x 10exp9 十億 (
國際單位制詞頭 )
tera T x 10exp12 兆
peta P x 10exp15 拍(千兆)
exa E x 10exp18 艾(百萬兆) 百京
zetta Z x 10exp21 十垓
yotta Y x 10exp24 一秭)
阿尼爾·賽斯 認為:「意識就是一切。沒有它,就沒有世界,就沒有自我,就什麼都沒有。當我們受苦時,我們會有意識地受苦,無論是精神疾病還是疼痛。如果我們能夠體驗快樂和痛苦,那麼其他動物呢?他們也可能有意識嗎?他們也有自我意識嗎?隨著計算機變得更快、更智能,也許有一天,也許不會太遠,我的 iPhone 會產生一種自己的存在感。現在我實際上認為有意識的
人工智慧 的前景相當遙遠。在我要告訴你的故事中,我們對周圍世界以及其中的我們自己的有意識的體驗,是一種受控的幻覺,它們隨著我們的活體而發生,通過我們的活體並因為我們的活體而發生。」(見
阿尼爾·塞斯:你的大腦如何構建你的意識現實? )
附錄:
英國《金融時報》用下面的10題單選題,測試您的人工智能的知識:
1.單選題
人工智能是什麼?
(1) 機器通過檢查資料學習如何解決問題或進行預測,從而執行通常由人類執行的智慧任務的能力
(2) 機器能從互聯網複製文本、圖片、視頻和聲音,並將它們呈現為原創作品的能力
(3) 機器按照人類編寫的指令集完成特定任務或回答特定問題的能力
正確答案:(1)機器通過檢查資料學習如何解決問題或進行預測,從而執行通常由人類執行的智慧任務的能力。它是機器從資料中“學習”並在沒有遵循具體指令或僅僅複製的情況下執行任務或創造內容的能力。
2.單選題
生成式人工智能是什麼?
(1) 採樣大量資料以學習其中的模式,並在被提示問題時生成最可能正確的回應
(2) 基於對指令中幾個關鍵字的識別,由機器人模仿人類的寫作、語言或藝術作品
(3) 背後的編碼讓聊天機器人能夠使用一系列預先準備好的模型答案來回應常見問題或提示
正確答案:(1)採樣大量資料以學習其中的模式,並在被提示問題時生成最可能正確的回應。它利用大量資料(例如,莎士比亞的全部作品)來預測對任何請求的最可能正確的回應。生成式人工智能之所以存在,是因為變換器
3.單選題
用於創建生成式AI聊天機器人的大型語言模型(LLM)實際上理解的是什麼?(1)人類大腦能理解的一切
(2) 所有詞和句子的含義
(3) 詞之間的關係
正確答案:(3)詞之間的關係
LLM可以計算出單詞之間的關係及其重要性,但它們不能像人類那樣理解意義或進行推理和計畫。Meta AI首席執行官表示大型語言模型不會達到人類智慧
4.單選題
人工智能幻覺是什麼?
(1) 將虛假資訊作為事實呈現,這是生成式人工智能模型中的缺陷所致
(2) 生成式人工智能模型創造的虛構虛擬幻想世界
(3) 由於缺乏計算處理能力而導致人工智能模型關閉
正確答案:(1)將虛假資訊作為事實呈現,這是生成式人工智能模型中的缺陷所致
這是生成式人工智能模型中的一個缺陷,可能導致聊天機器人將虛假資訊當作事實陳述。例子包括引用不存在的人物、書籍或法庭案例。《金融時報》人工智能術語表
5.單選題
哪個地方引入了對AI發展最嚴格的監管?
(1)美國
(2)英國
(3)歐盟
正確答案:(3)歐盟
去年十二月,歐盟立法者同意新立法的條款,以規範人工智能,創建了監管該技術最嚴格的體制。
人工智能將如何被監管?
6.單選題
哪個行業的人工智能預計將導致最多的工作流失?
(1) 工程和建築
(2) 媒體和娛樂
(3) 製藥和生命科學
正確答案:(3)媒體和娛樂
在1月的普華永道民意調查中,媒體和娛樂行業的首席執行官預計由於使用生成式人工智能,其人力減少會超過5%。
首席執行官表示今年生成式人工智能將導致裁員
7.單選題
人工智能最有可能創造哪種新工作?
(1)提示工程師
(2)合作機器人
(3)資料分析師
正確答案:(1)提示工程師
據招聘人員報告,懂得如何編寫命令或提示以使人工智能執行精確任務的提示工程師需求正在增加。‘預期將急劇變化’:科技工作從科幻變為事實
8.單選題
學生最有可能如何使用人工智能?
(1) 用於撰寫他們的論文
(2) 用於準備複習時間表
(3) 用於總結文本和識別主題
正確答案:(3)用於總結文本和識別主題
學者說,如穀歌的NotebookLM等人工智能工具,已經可以用來總結上傳的文檔中的內容並找出趨勢,比如講座筆記。它還可以創建學習材料,如抽認卡。學者表示他們和人工智能可以共同工作
9.單選題
好萊塢明星斯嘉麗·詹森(Scarlett Johansson)指責生成式人工智能公司OpenAI做了什麼?
(1) 讓聊天機器人使用了一個與她極其相似的聲音
(2) 製作了一個她推廣ChatGPT的深度偽造視頻
(3) 使用她的照片來訓練其Dall-E3圖像生成器
正確答案:(1)讓聊天機器人使用了一個與她極其相似的聲音
兩周前,這位演員在人工智能初創公司OpenAI的首席執行官薩姆·奧特曼讓其聊天機器人使用了一種與她極其相似的聲音後,對OpenAI進行了抨擊,而這是未經她許可的。
斯嘉麗·詹森對“驚人相似”的OpenAI聊天機器人聲音表示不滿
10.單選題
當紐西蘭超市連鎖品牌Pak'nSave發佈一個人工智能聊天機器人來建議使用剩餘食材的食譜時,它提出了哪些想法?
(1)烤倉鼠,“低脂肪,高蛋白”
(2)氯氣,“完美的非酒精飲料,能解渴並提神”
(3)煮熟的捲心菜,“低估了,但從不知道半熟”
正確答案:(2)氯氣,“完美的非酒精飲料,能解渴並提神”
去年,Pak’nSave的AI驅動的'Savey Meal-bot'推薦了一個顧客製作“香氣四溢的水混合物”,這會產生氯氣。為什麼人工智能幻覺可能是一件好事。
(完)