我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
需要注意的是,本章的標題提到 HuggingGPT 及其同類。這些同類指的是 Hugging Face 以外的其他平台。Hugging Face 通過 ChatGPT 作為控制器,實現了異構模型的組合使用,這是一項非常有價值的成就。本章將基於這一概念,進一步探索,並將任何有用的模型納入解決圖像識別問題的方案中。在現實項目中,我們也可以利用其他大型語言模型(LLM),例如 Google Vertex PaLM 2,來選擇可以在管道中運行的模型。
例如,我們可以進一步延伸這一概念,利用我們選擇的大型語言模型(LLM)實現跨平台流程,例如使用 Microsoft Bing 的聊天代理來查詢適合的視覺模型進行圖像分類,並使用 LLM 分析其輸出文本並提供解釋和建議,如下所示:
指令:
請提供一個能分類圖像的 Transformer 視覺模型名稱,然後再提供一個可以處理該視覺模型文本輸出的 Transformer LLM 模型,解釋該輸出並提出建議:
Bing 的回覆:
- 一個能分類圖像的 Transformer 視覺模型例子是 Vision Transformer (ViT)。該模型應用基於自注意力機制的 Transformer 架構處理圖像補丁序列,無需使用卷積層。
- 一個可以處理視覺模型文本輸出的 Transformer LLM 是 VisionEncoderDecoderModel。該模型可以通過任何預訓練的 Transformer 視覺模型(例如 ViT、BEiT、DeiT、Swin)作為編碼器,以及任何預訓練的語言模型(例如 RoBERTa、GPT-2、BERT、DistilBERT)作為解碼器,初始化圖像到文本的模型。
這樣的結構展示了如何在同一平台或跨平台上串聯模型,使得不同專長的 AI 模型協作完成複雜的任務,例如從圖像分類到語義分析再到建議生成的完整流程。
HuggingGPT 通過其 ChatGPT 控制器簡化了研究過程,顯著節省了時間。然而,在實際的生產環境中,我們不會每天更換模型。因此,可以利用 Hugging Face 的 HuggingGPT,以及其他平台的工具,尋找最適合我們專案的系統,然後打造一個定制化的跨平台串聯模型系統。


















