我們先回顧一下發生了甚麼?
Google旗下AI模型Gemini,最新推出的生成人物圖片功能出包!這個是3月初的大新聞,疑似過度追求「種族多元化」,生成出不符合史實的圖片內容,比方把美國開國元勳,變成非裔與亞裔面孔,引發爭議。
Google DeepMind執行長Demis Hassabis:「我們賦予Gemini生成圖片的能力,但結果並不如我們預期,在歷史人物上出了差錯,我們正在試圖解決,人工智慧細節上出的問題,所以我們下架了生成圖片功能,我們希望能在接下來幾周內,重新推出這個功能。」
被批評太過政治正確,在這個時間點其實真的很尷尬,全美國應該有一半的人對於所謂的woke 很感冒,這樣剛好坐實了矽谷菁英(連結民主黨) 不管一切追求社會進步價值的衝擊,Google母公司(Alphabet 股價,周一重挫4.44%,Gemini影像生成工具不準確,像這樣錯誤,不管事後如何說明,其實都算是致命的,因為從商業的角度留下一個非常強烈的負面印象,哪裡可以體驗Gemini (連結)
無獨有偶,微軟的AI 影片生成也被人家抓包會生成有害與暴力的內容。
有出包當然要檢討,各家新聞評論怎麼看待呢? 受到台灣一些媒體追捧的個人科技作家寫的部落格Stratechery的一篇文章,主要觀點是以企業文化來看待這個問題,而認為谷歌應該要徹底修正他們企圖告訴使用者該怎麼思考的這個態度,簡單說不要把那woke 文化覺醒的東西套用在給消費者的產品。
谷歌的使命始終都是整理世界的資訊,讓大家都隨手可得,事實上這個問題暴露出來的就是,你說自己要成為不biased,結果矯枉過正(overcompensate in some cases),變成連史實的要平衡,unbiased: 形容詞,意思是「沒有偏見的」、「公正的」 /ʌnˈbaɪəst/,結果搞到背離了史實問題更大,所以中文說得好: 人生境界真善美,真在善之前出現,先求真。
官方承認的就是overcompensate。顯示出這個東西是可以調整的,向是個旋鈕這樣,那問題就更大了,代表這是個文化守門人問題,不是數學問題,暴露出來的問題與搜尋不同,搜尋也會有bias,不過那個是眾人分頭建立的網頁,看被引述與連結的次數來決定他的呈現順序,你也可以說那個就是眾智,眾人的智慧,且搜尋是相對客觀。
在科技業裡面本來就充滿未知,所以做法有非常多種可以參考,比方說red team 紅方的作法,以及內部封閉測試,有限度對外的千人測試,都可以,如果你直接把他放來外面還沒有準備好,那就是失誤。
我們看一下時間表,谷歌Gemini 公布照片生成的時間還搶先 Open AI公布Sora 影像生成的時間 。
2024 年2月1日—
Google open Gemini Pro
2024年2月15日 —
Open AI Introducing Sora.
差別就是一個是對外開放,一個是封閉的。不是說你不能有問題,而是說你怎麼就這樣開放了呢? 好像寫文章也是會有錯字,但是你總要請人檢查吧,錄音也要修剪雜音完才放到Podcast 平台上,顯而易見的錯誤至少你要把他去掉吧!
難怪皮猜說這個沒有辦法接受,因為如果消費者簡單輸入就找的到問題,內部團隊難道沒有測試嗎? 或許有不少檢討谷歌管理風格,甚至是檢討皮猜的這種聲音,這一塊我們後續繼續追蹤觀察。
關鍵觀察點,打造AI 的這件事情上面現在進展到哪裡?
Gemini 最重要的突破就是朝向multi modal,為什麼要進入多模multi modal 的世界? 純粹是神來一筆,為什麼AI要可以判讀圖片、影片、文字、程式、音檔? 純粹是要炫技,因為做得到所以來做嗎? 不是的。
根據Demis Hassabis最近的說法,這個概念頗為重要,到目前為止的AI的突破是奠基於兩件事情,transformer (AI的一個理論) 搭配上 scale 算力規模擴大,讓他們以嶄新的方式吸收巨量的資料並加以訓練。
所以一個AI學界要有新的創新,同時量變帶來質變還是顛撲不破的道理;裡面的這個關鍵字就是 scale , 其原理就是烤一個麵包跟烤一千個麵包產生的風味是不同的,奇妙之處是結果是烤一千個,可能因為烤爐大小通風的關係,美味度獲得很大的提升。
2023看到的進展,都是Open AI 來根據這個transformer 方法 + 微軟的算力所帶來的進展。然而從2010開始的deepmind 所採用的方法論是不同的,在Deepmind 這邊他們的思路從2010年以來就是這個,創造一個基於真實世界的模擬,需要有一個擬真的環境,然後讓 AI 在裡面快速地跟自己的不同版本對戰,好的就留下來,成長茁壯,不好的就被修剪枝枒剪掉了。
他們的邏輯是創造一個擬真環境然後讓他自己玩。他們的概念後來的演變,是覺得進入multi modal 應該會在提升他們的功力,因為更多元多模的資料,其實是更加真實的代表真實世界,其實就學習面很容易理解,國中生我們會跟他說,看課本、畫線、看電子書、上網找youtube 解說、上khan academy 或是均一講解,最好是親自去操作看看,地理的話直接去實地訪查,這裡面就有文字、圖片、影像、聲音、氣味,當然學得更快更好。 下圖就是關鍵,最新的Gemini 可以讀一小時的影像、聽11小時的音檔、讀3萬行的程式,讀70萬字。
Hassabis 相信他們的做法,就是為了打造真正的智慧。透過創造一個更加真實的表現這個世界,這邊用的字是representation。
記得我們有一篇有說過輝達百分之40的業績來自四大CSP(consumer service provider) ,你有想過為什麼嗎? 身為消費者使用者,真的有用到這麼多的AI 嗎? 沒有呀!
Google, Meta, Microsoft, Amazon,他們提供的服務有這麼多的AI 含量嗎? 就是說在2023年3月之前與之後,你有感覺因為AI 大幅提升嗎? 我不覺得。
根據我們聽到Hasabi 的說法,谷歌與大咖們,他們自己也在尋找下一個突破點,這個突破點也只能來自兩個地方一個是演算法的突破,一個是算力。
演算法的突破要慢慢研究,哪一個會帶來前所未有的改變,說真的沒有人會知道,但另一個錢做得到的就是算力繼續提升,顯得很直覺。因為規模(scaling) 確實會帶來質變與突破。中文很有力: 讀萬卷書行萬里路,讀書破萬卷下筆如有神
所以AI晶片的熱潮會不是繼續? 會。因為嚴格說起來,那個簡單說不叫做熱潮,那個叫做有錢的科技公司正在尋找自己的聖杯,金礦在哪裡不知道,我只知道金瓜石、基隆山這附近有礦脈,因為基隆河碎石堆裏頭有小金石,但我不知道在哪裡,那要怎麼辦?
但如果花錢有幫助,有錢盡量花,盡量雇人開採,撒豆成兵,整座山去挖挖看,至少cover 50% 努力;研發方面一個類似transformer 的突破就可以改變競爭版圖,重點: 不能讓Open AI 再次跑再次領跑。
所以現在在哪個階段? 真的在很早期的階段:
四大需求方向: 政府、CSP、 企業,個人,分別尋找sovereigntyAI(主權AI), AI holy grail, business intelligent(商業智慧), 還有純粹早點下班(工作流程加速),買單的人太多了,這就是為什麼AMD CEO Lisa Su 這麼踏實的人會把AI 伺服器的TAM 從150billion 上修到400 billion.
這裡有個關鍵,我們知道AI 會有幻象對吧! 到今天都沒有辦法解決。 那重點就是他好像一個成長在北海道的小孩,從小聽著關於墾丁的一切,沒有到過熱帶沙灘,但是幾乎墾丁的每個大街小巷,名產美食都瞭若指掌,都聽他爸爸說過。
那會有個問題就是他一定會講錯,因為他沒有真的去過,一切都是腦中編織出來的,又或許真實的世界已經改變,所以更容易講出錯的。
所以要怎麼辦,前提假設是你不能真的去墾丁,如何降低錯誤率?
在北海道大型室內場地創造一個小墾丁,所有的項目,例如小吃街、浮潛、沙灘、海風、夕陽,就在這個小墾丁裡,然後讓小孩在裡面玩耍成長,就能過實作得到的真實的回饋。
那這樣就會降低錯誤的機率,這就是Hasabi 現在的思路。那甚麼叫做真實世界的模擬? 這就是 Nvidia 所一直說的ominiverse. 所有依據真實世界的物理現象原理都已經包含在裡面了,讓 AI 的替身在裡面互動就可以學到很多東西,這就是基於真實世界的代表,所給的真實回饋。
simulation 會是很重要的下一步。這是文字的下一階段。這是大型語言模型與transformer 之外的另一個大世界! 由這邊思考,變成真實世界所需要的運算力不知道是現在的幾倍? 我簡單做一個試算,一個文字檔案17Mb, 變成聲音檔37Mb, 變成影片檔至少500Mb, 如果變成真實的世界(可以互動的) ,其大小?
記憶體、晶片產能、耗電、散熱。 其實還是回到物理的限制。所以就把世界想像成一台電腦,拆開來找商機 (剛入行賣電腦就是人手一本松崗電腦出的電腦組裝入門)
你就像想世界是一台大電腦,電腦裡面有甚麼,新一代的元件是甚麼就是這些能夠得到最大的關注與益處。
目前的AI 應用是在幫助人類的工作,下一階段是替代人類工作
然而這兩件事情與他真正的能力的蘊藏量而言,完全是微不足道的。問題回答,預測下一個字,這只是小小的魔術。
智力的工作(Intellictual Tasks ) 被取代,這毫無疑問,只是要花5年,10年的差別,然而真正價值創造,其實,最後所有真正的價值都是來自土地,這顆地球就是我們擁有的唯一素材,找到新的材料,才是真正的暴利,例如挖礦,或是更棒的,創造全新的聚合物、藥物!
我們看一下聚合物的歷史,聚合物太重要。
全部食衣住行,都是人類相當倚重的發明! 原來都是人類合成出來的。你可以想像沒有Polyester 的世界,估計成衣業要倒一半。人工智慧(AI)可以用來模擬聚合物形成的過程。分子動力學模擬和量子化學計算是兩種常見的方法,而人工智慧技術可以應用在這些模擬中,提高準確性和效率。
所以我認為要達到這個狀態,所需要的運力需求根本遠超過大家的想像。以藥物來說,分子動力學模擬。AI可以應用在優化模型參數、提高計算效率,以及解析模擬結果。
我們不是科學家,也剛好沒有讀藥理科系,也不是生物系,那有甚麼是可以把握的? 除了上面所說的把世界當成一個PC這樣的思路之外,或是引擎,就是所有的鋼鐵製造、零件製造業、齒輪製造業,軸承製造,這個是看的專精與規模,小的東西,獨家的東西,來投資布局之外。
另外保留一個眼光要看全新的產業發展,因為有了蒸氣,有了火車、有鐵路大亨,後來內燃機有了汽車,賓士、福特是利用了內燃機打造。這些新的衍生行業的品牌到今天都還在。有了蒸汽機的動力、織布行業的發展、城鎮的發展、公共教育的產生,還有因為蒸汽機而驅動鼓風爐,造成冶金高度可以增加,鋼鐵產量增加,這是西方船堅砲利的源頭。
(金瓜石礦坑旁的鼓風機)
我自己小小的想法, AI只是開啟另外一個250 年。不是50年,而是250 年。
我相信即使像Open AI 或是微軟的Copilot 這樣收月費,相對於背後所付出的金錢與資源來說,也只是杯水車薪、稍微補貼而已,真正關鍵的是著眼於所帶來的新發現的潛力。這會讓所有的電腦網路手機,看起來就只是為了這天的到來所做的準備而已。
這個鋼鐵煉製技術的進步,才能製成大砲、裝甲、軍艦,這是為第一次世界大戰打下了基礎。我看得比較不是這個蒸汽機可以幹嘛,而是他可以讓甚麼事情變得簡單? 促成那些產業的發展。
所以我覺得怎麼看,今天的AI 只是一個人工智能的概念的發端,讓大家感受到wow 原來有這種可能,還要搭配其他的突破,讓某些事情變得簡單,比方說新藥發現、新的化合物、聚合物的發現。
科技最怕一頭熱,但更怕火車開動就追不上,Vision Pro 上市到今天一個月除了最早期的開箱,現在好像比較少報導了,到底是長期的演化還是短期的風潮,也還說不出來。電動車熱了兩年,好像現在沒有以前那麼熱了。 那AI 呢? 其改變遠遠超過問問題得到答案,或是產生圖片這樣而已,是長期演化的開始,所以我會繼續加碼。
推薦閱讀
https://kknews.cc/zh-tw/history/qerq4ly.html
https://www.youtube.com/watch?v=666XgM38jJE