第11天:多模態 Prompting (Multimodal Prompting)
(據說到多模態 Prompting 的概念算是進入高級 Prompt 工程主題的範疇了。。。)
►多模態 Prompting 定義:
加入不同類型的數據模態** 作為prompt的元素之一,引導 AI 模型生成回應的技術。
**註「模態」定義: 在 AI 領域的語境,模態指數據的表現形式或類型,包含:文字(最常見的 Prompt 形式)、圖像(靜態圖片)、音頻(聲音only)、視頻(Video)、3D 模型(三維物體的表示)、結構化數據(通常是表格形式的、依據資料架構清楚定義欄位的數據)。
相對於傳統Prompt 工程主要是文本輸入,多模態 Prompting是一種很強的能力,增加更多樣的資訊類型意味著,使 AI 能夠理解、融合及處理更多樣化資訊的能力。
►多模態 Prompting 的好處:
- 更豐富的資訊:多模態輸入可以提供更豐富的資訊量,ex 圖片勝文字。解決冗長文字token的成本。
- 突破文字局限性: 但凡難以用純文本精確描述,透過多模態輸入(ex直接提供圖像)便能處理。
- 拓展應用場景,包含:生成圖像、 看圖答題、視頻摘要與分析、語音音頻轉文字檔&內容分析或情感、接收複合prompt(語音指令+屏幕內容)。
- 提升輸出質量,更符合使用者期待與需求。
►多模態 AI 模型的基本運作原理
當接收指令**時,
**註:這兩者不止在接收、在輸出過程、輸出物,都能應用(就是也可以輸出不同模態結果的意思)。
Step1:多模態嵌入 (Multimodal Embeddings)
白話說明:
使不同模態的輸入標準化、統一化。
將不同模態的數據轉換為統一的、低維度的向量表示。當這些向量在同一個「向量空間」中,就能夠進行比較和關聯。例如,貓文字、貓圖片和貓叫聲,在向量空間中應該是「靠近」的。這同時也是一種資料揀選的過程,分門別類的概念。
Step2:融合 (Fusion)
白話說明:
將Step1處理過的數據,融合在一起,形成一個可以理解的綜合體(具有意義的),從而搭配文字prompting開始運作生成輸出。
►多模態 AI 模型的先進使用:厲害的生成式AI 像Google Gemini、OpenAIGPT-4V,它們是「原生」的多模態模型,就是在建造之初便以多模態訓練出發,而非附加上去的。