Andrej Karpathy是AI領域的知名專家,曾在特斯拉和OpenAI工作,專注於深度學習和電腦視覺。影片中示範了大型語言模型(LLM)的實用應用,從基本互動到進階功能,如搜尋工具、檔案處理、自訂GPT、ChatGPT運作原理、模型選擇、工具使用(如搜尋和深度研究)、程式碼撰寫、音視頻處理、圖像生成等。影片內容非常豐富,一樣建議有興趣的讀者有空時務必觀看完整影片!

大型語言模型(LLM)的基本概念
文字互動的本質
大型語言模型的核心功能是文字輸入與文字輸出。使用者輸入文字提示 (prompt),模型則以文字回應。這種互動模式看似簡單,但底層運作卻相當複雜。Tokenization (分詞)
大型語言模型首先將輸入的文字分解成稱為token的單位。這些token是模型理解和處理文字的基本單位。例如,句子 "How I use LLMs" 會被分解成 "how"、" I"、" use"、" L"、" LM"、"s" 等 token。每個token都對應到模型詞彙表中的一個ID。
Context Window (上下文窗口)
大型語言模型的一個重要概念是context window(上下文窗口)。Context window可以被視為模型的工作記憶體,它儲存了token序列。模型會根據context window 內的 token來預測下一個token。Context window大小有限制,因此過長的對話可能會導致模型遺忘先前的資訊。
大型語言模型的訓練過程
大型語言模型的訓練分為兩個主要階段:
- Pre-training (預訓練):模型讀取大量的網際網路文本,並學習預測序列中的下一個 token。這個階段讓模型獲得了廣泛的世界知識。
- Post-training (後訓練):模型使用人類創建的對話資料集進行訓練,使其能夠以更自然、更像助理的方式回應使用者的提問。
大型語言模型的本質
大型語言模型本質上是一個大型的「壓縮檔」,其中包含了數十億甚至數兆個參數。這些參數是在預訓練階段從網際網路文本中學習而來的。當使用者輸入提示時,模型會根據這些參數來預測下一個最可能的 token。
大型語言模型的應用
知識型查詢
大型語言模型擅長回答 知識型查詢,也就是那些基於模型已儲存的知識的問題。例如,詢問「一杯美式咖啡有多少咖啡因?」。由於這類資訊在網際網路上非常普遍,模型通常能夠提供合理的答案。
程式碼偵錯
大型語言模型也能夠協助程式碼偵錯。使用者可以將程式碼貼到大型語言模型中,並詢問錯誤的原因。更進階的模型甚至能夠找出程式碼中的錯誤,並提供修正建議。
旅行建議
大型語言模型也可以提供 旅行建議。使用者可以詢問大型語言模型推薦的旅遊城市,並獲得相關的資訊。
工具使用:網路搜尋
大型語言模型可以 使用工具 來擴展其能力。其中一個最有用的工具是網路搜尋。透過網路搜尋,大型語言模型可以訪問最新的資訊,並回答那些需要即時知識的問題。例如「《白蓮花大飯店》第三季何時播出?」由於這類資訊是最近才公布的,模型需要透過網路搜尋才能找到答案。
工具使用:Deep Research (深度研究)
Deep Research是一種結合了網路搜尋和深度思考的功能。當使用者提出複雜的問題時,模型會花費大量的時間進行網路搜尋、閱讀文獻,並產生一份詳細的研究報告。
檔案上傳
大型語言模型允許使用者上傳檔案,例如PDF文件,讓使用者可以與模型共同閱讀文件,並詢問相關的問題。例如,上傳一篇關於基因組序列分析的論文,並請模型提供摘要。
工具使用:Python Interpreter
大型語言模型可以使用Python 直譯器來執行程式碼。這使得模型能夠執行複雜的計算、產生圖表,並進行資料分析。例如,詢問「30 * 9 等於多少?」。模型可以直接計算出答案。但如果是更複雜的計算,模型會使用Python 直譯器來執行。
進階資料分析
ChatGPT 的進階資料分析功能,可以讓大型語言模型扮演初級資料分析師的角色。使用者可以上傳資料集,並要求模型進行分析、繪製圖表,並找出趨勢。
程式碼生成
大型語言模型擅長生成程式碼。例如,可以要求模型生成一個簡單的網頁應用程式。
多模態:圖片輸入
大型語言模型能夠理解圖片。使用者可以上傳圖片,並詢問相關的問題。例如,上傳一張營養標籤的圖片,並詢問成分的相關資訊。
多模態:圖片生成
大型語言模型也能夠生成圖片。使用者可以輸入文字提示,模型則會根據提示生成圖片。
多模態:影片理解
大型語言模型也能夠理解影片。使用者可以使用手機 App,將鏡頭對準物體,並詢問相關的問題。
使用大型語言模型的注意事項
模型版本與價格
不同的大型語言模型有不同的模型版本和價格。較大的模型通常具有更強大的能力,但也更昂貴。使用者應根據自身的需求和預算,選擇合適的模型。
工具的可用性
不同的大型語言模型可能具有不同的工具。例如,有些大型語言模型具有網路搜尋功能,有些則沒有。使用者應確認大型語言模型具有所需的工具,才能完成特定的任務。
幻覺 (Hallucination)
大型語言模型有時會產生幻覺,也就是產生不真實或不正確的資訊。使用者應仔細檢查 回應,並驗證其正確性。
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~
也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!
>>>請我喝一杯咖啡