自從去年ChatGPT後,AI這個本來沉寂已久的話題,瞬間火爆全世界,不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型,包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等,抑或是開始推出自己的生成式AI工具等等,例如Google的Bard、百度的文言一心、Open AI的DALL-E等等,但其中最多人用的還是ChatGPT,而微軟串接Open AI的Bing和Office365,也讓其聲勢大漲,可說是百家追逐、百家爭鳴,都在搶佔AI的高地。
而不只這些,就連AI相關的硬體都跟著聲勢大漲,包括負責生產AI用伺服器的廠商,緯創與相關個股,都紛紛衝的老高,而NVIDIA在其中更是一躍成為全球最炙手可熱的企業,雖然本來就很強了,但現在氣勢更是如日中天。
一個類似人,但又比人更快的服務,是人類追逐的目標,更不用說是它不會累,比起電影、漫畫和卡通裡的未來,彷彿又更近一步了,而且是大大的一步。
不過,在這些的背後,難道AI就沒有挑戰、困難、困境的地方嗎?
有,而且非常的多。
不光是倫理的問題了,這個是長久以來的問題,在1942年時,美國科幻小說作家艾薩克·艾西莫夫就在其小說轉圈圈其中一個篇章"我,機器人"中,就提出了著名的機器人三原則,其意就在保護人類。
因為一個成熟的AI,比起人類真是完美太多了,如果又讓其掌握了情緒等,那些人類才有的感情,加上又沒有條件去限制AI,那麼等待人類的,那可能不是像駭客任務中,那種人類被奴役的未來,那很大一部分就是被機器人、被AI清空的狀況。
在今年四月初,那些包含馬斯克的大老,就聯手數名一封名為"暫停大型人工智慧實驗"的公開信,想讓大家在現在瘋狂的AI競賽中緩一緩,可見也預期到了擔憂的未來。
同時有些回覆缺乏常識推理和理解,模型往往缺乏對世界知識的深入理解,容易在理解和回答複雜問題時出現錯誤或無法給出準確的答案。
在前文中提到,各家都在瘋狂的訓練自己的大語言模型,而在這次的AI競賽中,大語言模型(large language model,LLM),本身就是個重中之重的重點,目前看到的諸多生成式AI應用,大語言模型在其中功不可沒,所謂的大語言模型,就是指1000B以上參數的語言模型,透過大量的自監督學習或半監督學習對大量未標記文本進行訓練,讓其資料庫中有更多"有意義"的文本,加上反覆的訓練、微調,讓其更接近一個人類。
但要訓練一個大語言模型,可非是簡單的事情,像是176B的Bloom,當初可是花了法國用超級電腦訓練了100多天才完成,而超級電腦這種東西,可不是簡單就能造出的,尤其各國在超級電腦的競賽,早就是非常熱烈的事情,每年超級電腦的排名都在變化,而且非常花錢,比如目前台灣最強的超級電腦,就是在2018時所打造的"台灣杉二號",花了50億的經費和諸多人力,還包含很多科技、電信大廠投入,上面用了9,072個CPU和插了2,016張NVIDIA Tesla V100,目前NVIDIA Tesla V100一張在PChome賣299,000。
而且有了超級電腦,要訓練一個大語言模型,除了要時間運行外,也需要AI工程師對其訓練的模型進行調教、調整、接受user的反饋,來來回回進行調整,才可以產出"還算勘用"的大語言模型,耗錢、耗時、耗力,非一般單位可以去承受這些。
生成式AI可能會受到訓練數據中存在的偏見和不平等的影響。如果訓練數據中存在性別、種族、社會偏見等問題,生成的結果可能會反映這些偏見,進而加劇社會不平等。解決這個問題需要注意數據採集和清洗過程中的公正性,並進行後續的審查和調整,所以像是ChatGPT在訓練的過程中,就透過大量的人力進行貼標,以確保一些非常識或有違倫理的回覆出現。
同時生成式AI需要大量的數據來進行訓練,就算是以大語言模型的基底,那仍然是不足的,比如Bloom,在其中中文的語料就佔的非常少的比例,需要額外添加與再訓練,而在蒐集資料的過程中,就可能蒐集到隱密的資料,這可能涉及到用戶的個人信息和敏感數據。確保數據的隱私和安全性是一個重要的挑戰,需要採取適當的數據保護措施和隱私政策來保護用戶的權益。
除了上述的挑戰外,還有很多諸如法律、倫理、版權等等一系列問題。例如,如何處理由AI生成的內容的版權問題?如何確保AI系統的公正性和透明性,以及如何在AI生成內容的過程中遵守隱私法規等等。這些問題需要進行廣泛的討論和製定相關政策來解決。
這些困境,都非一朝一夕能夠處理,除了大量人力時間討論外,還需要針對所處國家不同的人情、法律等作調整,在AI越來越方便的趨勢下,可見未來中,人類的生產力會有質的飛越,可產生的問題也越發明顯,需要眾人的努力去調整、制定。