拐點 #002: 大語言模型的基本原理與工作方式

閱讀時間約 4 分鐘

演進歷程:從規則驅動到機器學習

在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。這種新的方法不再依賴於預先設定的規則,而是讓機器自己學習規律和模式,GPT便是這種方法的產物。

大語言模型(Large Language Model, LLM)是基於深度學習(deep learning)的人工智能模型,其核心原理是神經網絡。神經網絡模擬了人類神經系統的結構,由多個神經元組成的層次結構。

訓練過程:從數據中學習規律

大語言模型的訓練過程包括兩個關鍵階段:訓練和推理。

在訓練階段,模型通過大量的文本數據進行學習,不斷調整其參數以優化模型性能。這個過程需要大量的計算資源和數據支持,以確保模型能夠準確理解和生成文本。一旦訓練完成,模型的參數將固定下來,可以用於後續的推理過程。

參數設定是在大語言模型的訓練過程中發生的。在訓練過程中,模型的參數需要初始化為某些值,然後透過反向傳播算法不斷地更新和調整這些參數,以使模型的預測結果與實際結果之間的誤差最小化。

我們用人類如何學習寫作技能類比這個訓練過程。

首先是"初學階段:掌握基本技能"。當我們初次學習寫作時,首先需要掌握基本的語法、拼寫和標點等技能。這與LLM的初始訓練階段相似,模型通過大量的數據學習語言的基本規則和結構,建立對語言的基本理解。

再來是"實踐中的提升:模仿與練習"。在寫作過程中,我們通過模仿優秀作品、大量練習和反饋來提升自己的寫作水平。這就像LLM在訓練過程中不斷接觸和學習大量的文本數據,逐漸領悟語言的內在規律和模式。

接著是"反饋與調整:修正錯誤、改進進程"。我們會接受來自老師、同學或編輯的反饋,不斷修正錯誤、改進寫作進程。類似地,LLM在訓練過程中也會根據數據的反饋不斷調整模型參數,提升模型的性能和準確性。

推理過程:自主生成文本

其目的是根據輸入內容生成相關的文本輸出。在推理過程中,模型利用其固定的參數和訓練經驗來預測下一個詞語或句子,並生成連貫的文本。推理過程是大語言模型應用於實際場景的關鍵步驟,如文本生成、對話系統等。

寫作的推理過程中,我們常常依靠自己的靈感和想象力來創作新的作品。類似地,LLM在推理過程中會根據已有的知識和模式,自主生成文本,如文本生成、對話系統等。有時候,我們會結合先驗知識和已有模式,進行模仿創作,同時也能夠進行創新,生成全新的內容。LLM在推理過程中也會結合已有的數據和模式,生成新穎、連貫的文本,不斷拓展其應用領域。

結論

具體來說,GPT-3.5擁有超過1000億個參數,模型的參數是用來調整和控制模型行為的變量,其數量直接影響到模型的複雜度和性能。這些參數通常是模型中神經元之間的權重值、偏差值等。「1000億個參數」表示這個大語言模型中包含了1000億個用來調整模型行為的變量,這是一個非常龐大的數量,需要極大的計算能力和數據量來進行訓練和推理。

之後的版本GPT-4以及未來的GPT-5等將擁有更多的參數。這些參數的增加意味著模型能夠處理更多的數據和更複雜的任務,但同時也意味著需要更大的計算資源來訓練和推理這些模型。因此,這也提醒人們意識到,發展AI模型需要巨大的計算資源,而這也可能成為未來發展的一個挑戰。

發展AI模型需要會面臨以下挑戰:

  1. 計算成本: 大型AI模型需要龐大的計算資源進行訓練和推理,這導致了龐大的計算成本。這包括硬體設備的購買和維護成本,以及雲端計算服務的使用費用。
  2. 能源消耗:大量的計算資源需要大量的能源來運行,這對能源供應和環境造成了壓力。高能耗也導致了對可再生能源的需求增加。
  3. 計算資源分配不均:許多開發中國家或地區缺乏充足的計算資源,這導致了在全球範圍內計算資源的分配不均,進一步加劇了數字鴻溝。
  4. 技術限制:隨著模型規模的不斷增長,需要更多先進的計算技術來支持大型模型的訓練和推理。這包括高性能計算、分佈式計算、量子計算等技術。
  5. 數據需求:大型AI模型需要大量的數據進行訓練,這對數據的收集、清理和標註提出了更高的要求。同時,大型模型也可能會對隱私和數據安全構成挑戰。


這需要政府、企業和學術界的共同努力,以確保計算資源的可持續利用和公平分配。

內容總結
拐點
5
/5
3會員
87內容數
歡迎來到「Will 進步本」!我們將探索計算機科學、商用英文和生成式AI。從基礎到前沿,共同學習和交流,拓展知識視野,啟發創新思維
留言0
查看全部
發表第一個留言支持創作者!
Will 進步本 的其他內容
拐點: 人要比AI兇
閱讀時間約 1 分鐘
拐點 #001: AI的思路不像人
閱讀時間約 1 分鐘
你可能也想看
桃園🇹🇼結合棒球與卡通主題館的名人堂花園大飯店名人堂花園大飯店的建築非常特別,外觀就是棒球的模樣,是亞洲最大的球體建築物之一,高32公尺的棒球成為桃園最新地標,而主題展覽館是在旁邊的建築物裡,與名人堂花園大飯店是相連的,展覽館總共有7層樓,最好的參觀方式就是搭電梯從7樓逛下來~
Thumbnail
avatar
涼小狼🐺狼の足跡🐾
2024-02-18
【展覽體驗設計分支計畫┃策展觀點】倒置×簡略×拘泥:北藝大關渡美術館令人徬徨的空間、引導與規範設計「關渡美術館」其實是隸屬於北藝大的校園美術館,也是臺灣第一所位於大學校園內的美術館。筆者於今(2023)年10月份初次造訪關渡美術館觀展,結果對於這座美術館感到非常「印象深刻」...
Thumbnail
avatar
UX.Debugger 體驗設計除錯計畫
2023-12-09
[台北旅遊]歷經百年時光建築物走過歲月洗禮、國立台灣大學醫學人文博物館、最佳醫學教育與取景地點​ 國立台灣大學醫學人文博物館以醫學文物典藏及展示台灣醫學史為重點,揭示日本人在日治時期開始以帝國大學醫學院在台灣醫學發展之貢獻,展現醫學各領域在台灣發展之過程及特色。並提供該校教師作為醫學人文領域之教育及研究材料。如果你跟小編依樣愛逛博物館這裡你一定要列入口袋名單內。 國立台灣大學醫學人文博物
Thumbnail
avatar
bravejim
2023-10-13
聲音的怪獸與「強大的男性」——邪典電影《鐵男:金屬獸》觀後感似乎,男性要展現自己的強大,除了陽剛的反擊力外,就必須展現自己對痛苦的忍受力有多高強,讓人看見自己承受多麽巨大的痛苦與掙扎。這種模式在近日上映,並同樣依賴音樂來表現戲劇張力的《奧本海默》中也能看到,要表現奧本海默的偉大,就是要去表現他的壓抑。
Thumbnail
avatar
藍玉雍
2023-08-20
[台北美食]連鎖麵食專家麵大廚,自動化機器付款與手機APP點餐訂餐流程、豆花店與拉麵館結合店面 如果能在一家店家能夠一邊吃麵、一邊吃豆花與飲料,如此店家還真是找不到。這種店只有麵大廚手美食開業界先例、結合冷飲店與拉麵店真是奇特。麵大廚給你冷飲熱食、一次滿足你的味蕾。 麵大廚相關資訊:: 地址: 台北市中山區南京東路二段115巷18之1號 (台北市四平店) 營業時間: AM11:30-PM143
Thumbnail
avatar
bravejim
2023-06-20
(南港輕旅行)香水睡蓮與飛蛾,在洛碁大飯店南港館旁共譜翩翩的立秋情緣!在拍攝香水睡蓮不同的花姿倩影的過程中,突然迎空飛來一隻形似黃姬尺蛾的飛蛾,停佇在香水睡蓮缸邊,靜靜地跟著人們一樣,靜靜地凝望,悄悄地呢喃,一段飛蛾與香水睡蓮共譜的立秋情緣就此開啟,讓人暑氣全消,開啟了週日美好的一天!
Thumbnail
avatar
輕煙飄過
2022-08-07
(南港漫行)與六朵香水睡蓮,在洛碁大飯店南港館旁清新相遇。昨天早晨拍到的香水睡蓮,有白的、藍的、紫的,或半開或盛放,中間是金黃色的花實,焦點當然是這雙朵相互偎依的香水睡蓮,兩朵從水中揚枝而出,不管是俯拍、平拍或是從下方往上拍,不同角度綻放著不同的美感,讓人一整個神清氣爽。
Thumbnail
avatar
輕煙飄過
2022-06-26
(南港散行)清晨在洛碁大飯店南港館旁,與初綻的香水睡蓮美麗重逢。在面對「洛碁大飯店南港館」的左邊,看見了六個栽種有香水睡蓮的碩大圓缸館一字排開,當天在飯店旁看見的有白的、藍的、紫的,與金黃的香水蓮花,或躺臥水面,或挺立向陽伸展,或含苞待放,或初綻風姿,或盛放迎風搖曳,掀起一席波瀾,美的讓人心曠神怡。當時盛開的花景至今難忘,也寫了文章記錄與這些美麗花影初遇的喜悅。
Thumbnail
avatar
輕煙飄過
2022-06-05
(北捷南港站附近美景)清晨散步,在洛碁大飯店南港館與香水睡蓮美麗相遇。11月6日週末清晨出外散步,從北捷南港站出發,順著忠孝東路七段往東直行,約莫5分鐘來到了這家位於台北市南港區忠孝東路七段528號旅館旁邊的蓮花盆...
Thumbnail
avatar
輕煙飄過
2021-11-23
【職人觀點】在生活中用三個小改變,帶來大影響;提升問題解決的品質與速度每天睜開眼,我們都在面對大大小小的問題。想要提升問題解決的能力,並不是像健身運動一樣,每天投入固定的時間練習,一段時間就能看見成效;而是要將問題意識當作生活的一部分,就像危機意識一樣。如何做到這一點呢?不妨從生活中做出一些小改變開始,當這些該變成為習慣之後,就會帶來面對問題時的大影響。
Thumbnail
avatar
劉奕酉
2021-11-06