Andrej Karpathy是AI領域的知名專家,曾在特斯拉和OpenAI工作,專注於深度學習和電腦視覺。影片中示範了大型語言模型(LLM)的實用應用,從基本互動到進階功能,如搜尋工具、檔案處理、自訂GPT、ChatGPT運作原理、模型選擇、工具使用(如搜尋和深度研究)、程式碼撰寫、音視頻處理、圖像生成等。影片內容非常豐富,一樣建議有興趣的讀者有空時務必觀看完整影片!
大型語言模型的核心功能是文字輸入與文字輸出。使用者輸入文字提示 (prompt),模型則以文字回應。這種互動模式看似簡單,但底層運作卻相當複雜。
大型語言模型首先將輸入的文字分解成稱為token的單位。這些token是模型理解和處理文字的基本單位。例如,句子 "How I use LLMs" 會被分解成 "how"、" I"、" use"、" L"、" LM"、"s" 等 token。每個token都對應到模型詞彙表中的一個ID。
大型語言模型的一個重要概念是context window(上下文窗口)。Context window可以被視為模型的工作記憶體,它儲存了token序列。模型會根據context window 內的 token來預測下一個token。Context window大小有限制,因此過長的對話可能會導致模型遺忘先前的資訊。
大型語言模型的訓練分為兩個主要階段:
大型語言模型本質上是一個大型的「壓縮檔」,其中包含了數十億甚至數兆個參數。這些參數是在預訓練階段從網際網路文本中學習而來的。當使用者輸入提示時,模型會根據這些參數來預測下一個最可能的 token。
大型語言模型擅長回答 知識型查詢,也就是那些基於模型已儲存的知識的問題。例如,詢問「一杯美式咖啡有多少咖啡因?」。由於這類資訊在網際網路上非常普遍,模型通常能夠提供合理的答案。
大型語言模型也能夠協助程式碼偵錯。使用者可以將程式碼貼到大型語言模型中,並詢問錯誤的原因。更進階的模型甚至能夠找出程式碼中的錯誤,並提供修正建議。
大型語言模型也可以提供 旅行建議。使用者可以詢問大型語言模型推薦的旅遊城市,並獲得相關的資訊。
大型語言模型可以 使用工具 來擴展其能力。其中一個最有用的工具是網路搜尋。透過網路搜尋,大型語言模型可以訪問最新的資訊,並回答那些需要即時知識的問題。例如「《白蓮花大飯店》第三季何時播出?」由於這類資訊是最近才公布的,模型需要透過網路搜尋才能找到答案。
Deep Research是一種結合了網路搜尋和深度思考的功能。當使用者提出複雜的問題時,模型會花費大量的時間進行網路搜尋、閱讀文獻,並產生一份詳細的研究報告。
大型語言模型允許使用者上傳檔案,例如PDF文件,讓使用者可以與模型共同閱讀文件,並詢問相關的問題。例如,上傳一篇關於基因組序列分析的論文,並請模型提供摘要。
大型語言模型可以使用Python 直譯器來執行程式碼。這使得模型能夠執行複雜的計算、產生圖表,並進行資料分析。例如,詢問「30 * 9 等於多少?」。模型可以直接計算出答案。但如果是更複雜的計算,模型會使用Python 直譯器來執行。
ChatGPT 的進階資料分析功能,可以讓大型語言模型扮演初級資料分析師的角色。使用者可以上傳資料集,並要求模型進行分析、繪製圖表,並找出趨勢。
大型語言模型擅長生成程式碼。例如,可以要求模型生成一個簡單的網頁應用程式。
大型語言模型能夠理解圖片。使用者可以上傳圖片,並詢問相關的問題。例如,上傳一張營養標籤的圖片,並詢問成分的相關資訊。
大型語言模型也能夠生成圖片。使用者可以輸入文字提示,模型則會根據提示生成圖片。
大型語言模型也能夠理解影片。使用者可以使用手機 App,將鏡頭對準物體,並詢問相關的問題。
不同的大型語言模型有不同的模型版本和價格。較大的模型通常具有更強大的能力,但也更昂貴。使用者應根據自身的需求和預算,選擇合適的模型。
不同的大型語言模型可能具有不同的工具。例如,有些大型語言模型具有網路搜尋功能,有些則沒有。使用者應確認大型語言模型具有所需的工具,才能完成特定的任務。
大型語言模型有時會產生幻覺,也就是產生不真實或不正確的資訊。使用者應仔細檢查 回應,並驗證其正確性。
我是TN科技筆記,如果喜歡這篇文章,歡迎留言或轉發給朋友給我支持鼓勵!!