(本文最近一次更新在2023/12/15)
作者:陳華夫
谷歌(Google)2023/12/6正式推出了多模態的大型語言通用模型Gemini:「Gemini共推出3種版本,包含性能最強大的Ultra版模型、通用性最廣的Pro版,及可以在手機裝置上運作的Nano版。其中Nano版本可讓安卓(Android)系統的開發人員能藉此打造離線使用的
人工智慧 (AI)應用程式與功能。但目前僅先供谷歌旗下的Pixel系列手機搭載。
Gemini是使用谷歌自行開發的晶片「TPU」訓練而成,可以同時支援文字、圖片和聲音的輸入。在32項AI測試中,有30項的評分超越了
OpenAI 的
GPT-4 V。谷歌執行長皮查伊(Sundar Pichai)強調,Gemini是谷歌有史以來最強大、也最通用的模型。」(
AI大戰 谷歌Gemini超越OpenAI─有史以來最強大、最通用的模型 有3種版本 )
1) GPT-4 的 理解 能力遠遠落後人類:
(1)
GPT-4 的主要優勢在於其對自然語言無與倫比的掌握。它不僅可以生成流暢連貫的文本,還可以通過各種方式
理解 和操作文本,例如總結、翻譯或回答極其廣泛的問題。 此外,翻譯不僅指不同自然語言之間的翻譯,還包括語氣和風格上的翻譯,以及跨醫學、法律、會計、計算機編程、音樂等領域的翻譯,清楚地表明
GPT-4 可以
理解 複雜的想法。(見〈
通花 〉,第8頁)
(2)
GPT-4 並非真正的如人類對
概念 的
理解 ,很多時候是現場
即興 創作。唯一真正的
理解 測試是一個人是否可以產生新
知識 ,例如證明新的
數學定理 ,而
GPT-4 目前無法做到。(見〈
通花 〉,第9頁)
(3)
GPT-4 比
GPT-3 具在
常識 性的思考有巨大飛躍,
常識 是對日常事務的合理、實用的判斷,或者是一種基本的
感知 、
理解 和
判斷 的能力,其方式幾乎為所有人所共有。針對下面這個測試
常識 性的思考之經典謎題:
「一個獵人向南走一英里,向東走一英里,向北走一英里,最後又回到了起點。 他看到一隻熊並射殺了它。 熊是什麼顏色的?」
答案是白色的,因為唯一可能發生這種情況的地方是北極,那裡有北極熊。
GPT-4 正確的回答了謎題,而其前身
ChatGPT (
GPT-3 )卻說:「我不知道。」(見〈
通花 〉,第101頁)
(4)
GPT-4 並不理解
音樂的和諧 的技能,它生成的
旋律 中,連續音符幾乎總是彼此相鄰(即C 之後的音符幾乎通常是 B 或 D),並且
GPT-4 生成的音樂無法提取出任何清晰的
和弦 或
琶音 (即把
和弦 成音,做排列的彈奏)。(見〈
通花 〉,第19頁)
(5)所謂
心智理論 (ToM)是將信念、情緒、慾望、意圖和知識等心理狀態歸因於自己和他人,並
理解 它們如何影響行為和人們交流的能力。
而
GPT-4 是否具有
心智理論 呢?
經典評估兒童
心智理論 的是「
Sally-Anne 測試」:即讓沙莉及安妮共處一室,沙莉首先拿起皮球,放在籃子內,然後離開房間。安妮看到沙莉離開後,偷偷從籃子拿出皮球,再放進一個盒子,並把它蓋起來。然後詢問被測試的小孩湯姆:「沙莉回來後去哪兒找球」?
湯姆若回答:「沙莉會去盒子找皮球!」但湯姆答錯了,因為沙莉並不知道安妮已經把皮球移走了。在2010年的一項實驗結果中,6到8歲的兒童答對率是65.5%,而9到14歲兒童答對率是91.9%。(見
GPT-4心智能力如14歲童 通過評估測驗 微軟視AGI雛形 )
針對類似的
心智理論 測試,
GPT-4 和
ChatGPT (
GPT-3 )都通過了,而早先的版本
text-davinci-003 卻給出錯誤答案。(見〈
通花 〉,第54頁)
2) GPT-4 的數學能力很侷限:
雖然
GPT-4 在與數學相關的任務中優於其他
大型語言模型 (
LLM ),如
Minerva ,但它仍然不及數學專家,無法進行數學研究。GPT-4 可以回答具有挑戰性的高中數學問題並討論高級數學主題,但它也可能會出錯或提供無意義的回答,(見〈
通花 〉,第30頁)
GPT-4 基本的局限性是它不能
回溯 (backtrack),所以需要超前
計劃 (即帶有時間和資源詳細信息
的 任何
圖表 或步驟列表,用於實現做某事的
目標。 它通常被
理解 為實現
目標的一 組 時間性 的預期行動。)。這是因為它的輸出是正向產生的,它不能存儲中間結果或進行多步計算。而相對的人類使用
便簽本 (scratchpad)來解決問題。
GPT-4 的
工作記憶 也很小,這限制了它解決某些任務的能力。所以很難解決涉及個位數乘法和兩位數加法的基本算術問題,例如,
GPT-4 輸出如下:
2 * 8 + 7 * 6 = 58
7 * 4 + 8 * 8 = 88
但答案:”88”是錯的。(見〈
通花 〉,第77頁)
這些局限性可能來自
GPT-4 架構下的
下一個詞預測典範 ,而它可能缺少“
慢思考 ”部分,無法監督思維過程,及無法使用足夠的
工作記憶 來解決問題。(見〈
通花 〉,第81頁)
3) GPT-4 常犯 幻覺 錯誤,要小心並驗證:
GPT-4 經常犯數學錯誤或陳述錯誤,這些錯誤很難發現,因為它們可能與正確的信息混在一起。這些錯誤被稱為
幻覺 ,可以是封閉域或開放域。封閉域
幻覺 發生在特定的環境中,更容易檢測,而開放域幻覺更難發現,需要額外研究。在使用
GPT-4 寫作時,確保信息真實性可能並不重要,但對於醫學和新聞等領域,仔細檢查所有內容至關重要,用戶必須謹慎並驗證其信息的準確性。同樣重要的是,讀者要小心並驗證
GPT-4 生成的信息內容。(見〈
通花 〉,第9.1節)
4) GPT-4 被操縱生成虛假信息及發起網絡攻擊:
GPT-4 也可能被惡意使用。模型的泛化和交互能力可用於擴大對抗性用途的範圍和強度,從生成虛假信息到對計算基礎設施發起網絡攻擊。這些模型可以通過情境化和個性化互動來顯著地操縱、說服或影響人們,以最大限度地影響他們幾代人。借助
GPT-4 自動化,可以啟用旨在構建虛假信息計劃的新用途,這些計劃可以生成和組合多個內容以在短期和長期範圍內進行說服。(見〈
通花 〉,第9.2節)
6) GPT-4 引發了教育和失業的問題:
GPT-4 是一台可以做很多事情的機器,即使在醫學和法律等領域也是如此。這可能會引起人們擔心它會如何影響需要大量培訓的職業。有些人可能擔心人工智能系統會取代或降低人類工人的地位,引發了教育和失業的問題。(見〈
通花 〉,第9.4節)
7) GPT-4 加劇 人工智慧 (AI)使用的不平等及個人隱私洩露風險:
GPT-4 的使用需要收費,將加劇
人工智慧 (AI)使用的不平等。因為個人、組織和國家可能無法負擔使用
GPT-4 的費用,
GPT-4 實質上只對有特權的人開放,而擴大了社會使用
人工智慧 (AI)的鴻溝和不平等。
並且由於
GPT-4 由強大的推理能力,在其與人們的聊天中捕獲了人們的隱私,於是加遽了個人隱私洩露風險。(見〈
通花 〉,第9.5節)
訓練如此大型模型不僅耗時,也耗鉅資;例如,訓練
GPT-3 這樣的
大型語言模型 (
LLM ):82 G參數及150G
標記 (token),一般使用1,024 個
NVIDIA A100 ,其訓練所耗費的時間T(天)估計如下:
T ≈ (6 x
N x
D ) / (1024 x
𝜏 )
𝜏: 是
NVIDIA A100 之
float16 FLOPs 吞吐量 = 312 teraFLOPS = 312兆FLOPS = 3.12 x 10exp14 FLOPS (按FLOPS = 每秒的浮點運算數)
N: 模型的參數之數目 = 8.2 x 10exp10 = 82 G參數 = 82 B參數
D: 模型的
標記 (token)數目 = 1.5 x 10exp11 = 150 B
標記
計算結果:
T = (6 x 8.2 x 1010 x 1.5 x 1011) / (1024 x 3.12 x 1014 )/(8.64 x 104秒/天 )= 2.67 天。
此結果與比
白皮書 的培訓耗時13.4 天小了約 5 倍,卻是在正確的數量級。(見
語言模型訓練的FLOPs微積分 )
(按:單位的中英對譯:
billion B x10exp9 (美國,法國)十億,(英國,德國)萬億
giga G x 10exp9 十億 (
國際單位制詞頭 )
tera T x 10exp12 兆
peta P x 10exp15 拍(千兆)
exa E x 10exp18 艾(百萬兆) 百京
zetta Z x 10exp21 十垓
yotta Y x 10exp24 一秭)
阿尼爾·賽斯 認為:「意識就是一切。沒有它,就沒有世界,就沒有自我,就什麼都沒有。當我們受苦時,我們會有意識地受苦,無論是精神疾病還是疼痛。如果我們能夠體驗快樂和痛苦,那麼其他動物呢?他們也可能有意識嗎?他們也有自我意識嗎?隨著計算機變得更快、更智能,也許有一天,也許不會太遠,我的 iPhone 會產生一種自己的存在感。現在我實際上認為有意識的
人工智慧 的前景相當遙遠。在我要告訴你的故事中,我們對周圍世界以及其中的我們自己的有意識的體驗,是一種受控的幻覺,它們隨著我們的活體而發生,通過我們的活體並因為我們的活體而發生。」(見
阿尼爾·塞斯:你的大腦如何構建你的意識現實? )