大部分的人都知道Open AI的ChatGPT,
部份的人知道Perplexity一類的生成式AI模型,
還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。
但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,一方面是因為它才剛發表4天,另一方面它是開發者/研發者比較會在意的。
Google發表新的開源AI模型。
簡單來講,Google開始用開拓app市場的「開源策略」追上較早開始開源的其他開源生成式AI模型/服務/策略,如微軟撐腰的ChatGPT。事實上,OpenGPT中的Open就是「開源」的意思。 (儘管2019從非營利轉型後就有點走偏了,以初心在市場上點起火後,基本上創新就被商業模式套牢了。你從比較它與其他Open AI工具就可以看出來:服務缺乏層次和人文。)
Google一直都是科技界「開源」和「水平」精神的領頭羊,你看它「被取代/結束的服務墳墓」裡山一樣大的谷堆就可以撇見端睨。
你應該已經注意到,Gemma跟Gemini名字很像。事實上,Google在Open AI和微軟的Copilot AI大舉行動後,措手不及地將自己正在慢慢訓練的新一代AI模型解開項圈--「Google Bard(吟遊詩人之意)」。
解開項圈後的AI模型與Google最適合汲取資訊並訓練AI複雜模型的系統放在一起:也就是Google Assitant、Chrome搜尋引擎、Pixel軟體或Google的基礎跨平台服務。
前一段時間,我剛好換了手機,在Pixel 8推出後,Pixel 7大降價,我就在前開始用Google Pixel 7。在Open AI大手大腳時,Google也開始大手大腳。
Pixel及各種服務,尤其是個人智慧助手Google Assitant,開始問我(去年三月):
「要不要加入實驗(Bard,或現在的Gemini的標誌就是Google引擎左上角的『實驗燒瓶』標誌),體驗新型AI模型的魔法?」
我很興奮地全都回答要。
結果跟大部分的人一樣,沒有什麼真的魔法。
Bard像是Perplexcity的Copilot一樣,沒有讓人感到太多「張大眼睛」的瞬間。
幾個月後,Google推出Gemini,沒多久,我的Pixel和各Google主要服務宣告吟遊詩人之死:
Google:「Bard現在是Gemini了!Bard is now Gemini.」(二月八號)
有趣的是,當我打開Gemini的「聊天室窗(才剛推出沒多久)」,問:
「你是什麼時候推出的?」
它回答:
「我原本是Bard,Bard原本是在2020開始的純研究計畫Meena。」
Meena是魚的意思,也可以指雙魚座。
Gemini是雙魚座的意思。
我開始微笑。
基本上,它只是Bard換了名字,並且正式跟你說:「我要開始正式偷/借/使用更多從你那邊收集來的資料囉」,所以才能「用這些資訊訓練AI模型、提供更好的服務」。
這就是產品和品牌的真正當代效用:用來模糊「更多條約和使用者資訊使用協定等」的儀式感。
不過確實,Google開始做起有感的事了。
Gemini如同Chat GPT和Perplexity的免費「聊天型態app」五天前才在特定區域的Google Play上架。
我知道是區域限定是因為台灣的Google Play下載不了。
讓我想起MMORPG的地圖限定活動,或「先行服」的概念,或者寶可夢的區域限定寶可夢(笑),。
但它真正開始引起媒體注意,是從它的圖片生成功能開始的。
Google兩天前刊登道歉部落格文章,說明自己確實搞砸了。
有趣的是,與Midjourney和OpenAI的DALL-E圖片生成時常為人詬病的點:「太多種族偏見和刻板印象」,Gemini圖片生成似乎「太刻意製造『政治正確』了」!
套一句Elon Musk在X上的推文:
「Which path do you want? 你想要哪條路?」
他指名Open AI和Gemini,說他們「WOKE(揶揄太政治正確)」且「RACIST(種族歧視)」。
套Verge的新聞標題:
Google apologizes for 'missing the mark' after Gemini generated racially diverse Nazis (在Gemini生成種族多元的納粹圖片後,谷歌道歉「矯枉過正」)
看到標題我快笑死 🤣。
對對對,主角是Gemma。
我們分段說說:
-雖然與Google Cloud(Vertex AI)最相容,還有Kaggle、透過Keras的低階應用。
-然後與Hugging Face及NVIDIA的合作,讓更多深度學習的「微調(fine-tuning)」方式化為可能。
Google:還有更多的合作正在發生。
-2B和7B(分指MML模型以20億及70億參數範圍-parameter的兩種尺寸)的標竿表現(benchmark)的很好,甚至比其他MML模型的13B還強。有興趣的請看這。
-使用Keras 3.0深度學習架構,所以可以與JAX、TensorFlow及PyTorch無縫相容。簡單來講,Gemma擴增了自己的開發者人口。
-連筆記型電腦都跑得起來。
這似乎是Google最在乎的。因為在發行網頁上,最左方(英文從左閱讀)就是:
Respobsible by design. (以永續責任設計。)
中文似乎翻不出感覺,但以上面新聞的例子就考以推論出意思。
確實,Google的一小步,代表人類對AI最深層的顧慮走出了一大步。
它重複用了「responsible(當責、負責的)」這個字並用了「trustworthy(可信任的)」。
試問:以往,有哪間公司,尤其是數據和科技公司,會標榜自己的模型「可信任」?
你會看到諸如「效率」、「輕巧」、「彈性」、「便宜」、「安全」等廣告。Trustworthy在以往的廣告業,只會出現在諸如投保、管理、交易等與「人最基本的交互信任」有關的圈塊,但這句話代表「人類第一次害怕反背對自己生成的資訊利用。」這種徬徨標誌人類發展的新時代benchmark。
再來看看Google自己做的"文章":
Responsibility by Design 當責設計: Pre-trained on carefully curated data and tuned for safety on top, helping to empower safe and responsible AI development based with Gemma models. 以事先訓練及細心調整的資訊為基、特別以安全性微調,來協助推動Gemma安全又當責的AI發展,
超多針對「安全性」及「當責性」的文章,就好像在回應前面講的「種族多元納粹新聞」🤣🤣。
Robust and Transparent Evaluation 積極廣視而透明的評估: Comprehensive evaluations and transparent reporting unveil model limitations to adopt a responsible approach for each use case. 全面評估、透明的報告,以公開模型的限制(問題),對每種使用提供負責的解方。
表面上是「開源」,其實是「公關」。文章功能同上。
Powering Responsible Development: The Responsible Generative AI Toolkit supports developers to design and implement Responsible AI best practices.
以上訊息我都懶得翻了,可以感覺到寫文章的人已經沒墨水了。Responsible這個字已經用到爛了。
對「當責生成式AI工具箱(The Responsible Generative AI Toolkit)」有興趣的請自行閱讀。
在launching page上,還硬塞了一個我猜是自2020年還是「雙魚座(Meena)」研究用模型就存在的原先定位,一部分重新包裝為「Google Cloud credits」。
簡言之就是幫你寫論文或做學術研究,更快、更廣、更不用擔心抄襲。
某種程度上深度語言模型的開發確實應該造福先端學術研究,畢竟「全人類想得最前面的頭腦」仍大多是學術頭腦。
現AI發展有點太專注在市場化和知識服務開源,但是我覺得應該與尖端發展並行。
開源(水平)與尖端(垂直)互補,這是很棒的「無限互補知識模型」。你想像「無限符號」,雖然沒有定點,但我們會直覺地用人類的老工具「二元性/二元計算/思考(duality)」把無線符號看成「兩個中心」。
-開源水平模式加強「當責性」,也就是人性;
-閉源垂直模式加強「動態評估(譬如CQA benchmakr)」,也是人性。
永遠有。
請持續關注【一顆燙手報】!謝謝您的支持!
Refs:
https://ai.google.dev/gemma#benchmarks
https://medium.com/@maldonado.andy.m/google-gemini-and-googles-confusion-838b77580cb5
https://www.forbes.com/sites/zacharyfolk/2024/02/22/google-stops-gemini-ai-from-making-images-of-people-after-musk-calls-service-woke/?sh=3f07b2a2374b
https://www.theverge.com/2024/2/21/24079371/google-ai-gemini-generative-inaccurate-historical
https://twitter.com/elonmusk/status/1760516729783148583
https://www.turing.ac.uk/blog/what-defines-open-open-ai
https://blog.google/technology/developers/gemma-open-models/
https://www.youtube.com/watch?v=QlXzj60FDfs
https://gemini.google.com/app/488af1de56fdc00b
https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en&gl=US&pli=1
https://blog.google/products/gemini/gemini-image-generation-issue/
https://ai.google.dev/gemma/docs
https://vocal.media/futurism/exploring-the-capabilities-of-open-cqa-a-revolutionary-ai-benchmark-for-answering-open-ended-questions-on-charts-and-visual-data