Textual Inversion 是一種用於個性化文字到圖像生成模型(如 Stable Diffusion)的技術。它允許用戶通過少量示例圖片(通常3-5張),讓模型學會一個新的「詞彙」或「概念」,這個詞彙對應於用戶提供的特定對象、風格或人物。
主要原理:
• 傳統的文字到圖像模型使用預訓練的詞嵌入來表示詞彙,Textual Inversion 則是學習一個新的詞嵌入向量,映射用戶特定的概念。• 用戶提供少量圖片,算法訓練新的詞向量,使模型在生成時只要在提示詞中加上這個新詞彙,就能生成與示例圖片風格或對象一致的圖像。
• 這個方法不需要重新訓練整個模型,僅僅調整少量的詞嵌入參數,計算資源和時間成本較低。
優勢:
• 個性化程度高,能讓用戶以自然語言詞彙的形式,輕松控制生成內容。
• 節省資源和時間;相比於大規模微調,Textual Inversion 更輕量、快速。
• 支持創建新的概念詞彙,方便在生成時呼叫和組合。
實際應用:
• 創建專屬的人物形象、藝術風格或物品。
• 在商業設計、動畫製作或品牌個性化視覺資產生成中廣泛應用。
• 與 DreamBooth 等進階個性化技術配合使用,強化模型產出多樣性和控制度。
簡單說,Textual Inversion 是一種通過少量圖片學習新「詞彙向量」,讓文字生成模型能理解並生成指定新概念的高效技術。