以小搏大【2022/12】

更新於 發佈於 閱讀時間約 5 分鐘

2021/6,微軟研究團隊發表一篇論文,提及針對大模型重新訓練,將產生大量計算導致成本高昂。但如果先凍結模型本身的權重,再插入層層套件調整模型運算,就能縮減大量計算需求、獲得有效的微調模型輸出結果。該研究在 RoBERTa、DeBERTa 和 GPT-2 上面嘗試,對局外人的我來說,


這都是個啥啊。


想像語言模型的運作原理、重新訓練語言模型的原理,以及在此之上新作法能優化的原理,抽象的概念一層一層往上疊,不了解的情況下就算設想出了譬喻來教大家,也只會寫出徒有形式缺乏精髓的介紹文,就像給 AI 一堆外表敘述提示詞,叫 AI 生成一個模型根本沒練到的角色一樣,特點都有,但就不是她。

提示詞 : 淺粉紅色長直髮、分瀏海、右側太陽穴、兩對紅色角、紅色眼睛、圈狀眼、揚眉、獠牙、深藍色運動夾克、半穿夾克、白色襯衫配黑色領帶......問題來了,這是哪位角色呢?

提示詞 : 淺粉紅色長直髮、分瀏海、右側太陽穴、兩對紅色角、紅色眼睛、圈狀眼、揚眉、獠牙、深藍色運動夾克、半穿夾克、白色襯衫配黑色領帶......問題來了,這是哪位角色呢?


幸好這問題,微軟那篇論文就能解決。


在 2022 年最後、Civitai、chichi-pui 宣布成立公司過沒幾天,GitHub 用戶 cloneofsimo 提出將微軟那篇論文介紹的新訓練方法:Low-rank Adaptation,簡稱 LoRA,應用在訓練 SD 模型上。論文裡難以想像的概念,瞬間變得直覺了:


AI 產圖模型太大了,重新訓練耗電腦設備,而新算法可以降低訓練成本,現在就算個人電腦也有機會訓練 LoRA ,讓 SD 模型去"畫"模型沒學過的東西啦 !


過往想讓 AI 產製特定角色的難點在於,如果訓練一整個幾 GB 大小的 Checkpoint ,才有辦法畫出「一個人」,總有一天會產生這樣訓練與儲存到底划不划算的終極大哉問。相較下 LoRA 模型大幅縮減了訓練需求的資料量、檔案只需要幾有一百多 MB,一台電腦內可以裝載更多,供普通用戶揮灑更多可能性。

雖然依照電腦性能,訓練 LoRA 模型這種新技術,依舊可能需要等待幾十分鐘甚至幾小時之久,而我顯然缺乏在我的 4GB 獨顯筆電上測試的勇氣。因為這台筆電剛買不到半年啊 ! 看看幾個月內 AI 圖像生成發展成什麼樣子 !


長遠來看,LoRA 技術在圖像生成的應用,讓更多人有能力作為供給者。過往只能讚嘆網路上那些設備好、有技術,可以自己融模型的大神,現在新作法只要準備適量的素材,便能生成自己喜歡的角色。而 Civitai 能容納各種檔案類型的設計,成為許多嘗試新技術用戶進行分享的園地。技術給了用戶參與的機會、平台給了用戶發揮的空間——


下一輪 AI 產圖風潮,自然水到渠成。


當時的我渾然不覺,慣例每日下班逛逛 Civitai。


儘管有一個平台海納百川,並且每天都有新東西是令人欣喜的事情,但最近 LoRA 這種新玩意兒未免太多了吧 ? 我仍偏好目前體積最小的文本反轉 pt 檔案,相較於 LoRA 一百多 mb,Embedding 的檔案只需要幾十 kb,單位空間下一定能存比較多 !


之後的日子,我刻意優先尋找 Embedding 下載使用,同樣能輸出特定角色,筆電存的檔案越多,便有越多工具、越寬廣的空間讓我發揮。可惜 Embedding 越來越難找,因為 LoRA 檔案數量指數成長,晚上瀏覽 Civitai 的時間越來越長。偶爾對 Embedding First 的意義感到迷茫,但想起那些致力於降低 AI 技術門檻的開發者與學者們,追求以小小套件微調整個大模型,那我堅持以更小的 Embedding 扭轉產出結果,意義在於與他們同心啊 !


直到隔年一月,我下載了某幹員的 Embedding,提示詞只有一個英文字母"W"。使用時一切正常,我不疑有它,繼續嘗試其他主題,這時怪事卻發生了 :

我發現如果不加強外表的權重,出圖人物都接近剛才那個套件的形象。

問題是,這時候我根本沒輸入會啟動套件的提示詞 ?

"W" by 明日方舟,雖然是 AI 生成無法避免細節有誤

"W" by 明日方舟,雖然是 AI 生成無法避免細節有誤


該不會召喚了哪位賽博女鬼吧,待我仔細檢查,才發現原因在於我輸入了模型看不懂的英文詞彙。AI 判定提示詞是看 token、不是看單詞本身,所以詞彙無法理解時,模型會將其拆分,直到出現能理解的詞。那串詞彙裡面恰好有個"W",顯然 AI 拆分後得到了W、啟動 Embedding、導致生成的每張圖都是某幹員形象。


而這就是新技術 LoRA 和過往 Embedding 的區別之一。 LoRA 有特定格式的呼叫詞<LoRA檔案名稱:權重> 來啟動檔案。沒有這組詞彙,LoRA 將無法啟動,避免發生一串敘述中恰好包含特定提示詞,意外觸發 Embedding 的狀況發生。



是時候嘗試 LoRA 了!!!




使用civitai網站上的角色Embedding生成,漫畫《鏈鋸人》的角色帕瓦。前面的圖雖然特徵相似,但有沒有用特定Embedding還是看得出來有差吧?

使用civitai網站上的角色Embedding生成,漫畫《鏈鋸人》的角色帕瓦。前面的圖雖然特徵相似,但有沒有用特定Embedding還是看得出來有差吧?



留言
avatar-img
留言分享你的想法!
avatar-img
Bsh的沙龍
3會員
49內容數
記錄我在 2022 年 9 月之後使用 AI 生成圖像的嘗試。 這個主題總有一天會沒東西好寫,那就走一步算一步吧...…
Bsh的沙龍的其他內容
2025/04/29
既然 BiliBili 上分享的 LoRA 號稱可一鍵生成漫畫,我決定只寫 prompt 來引導 AI 生成漫畫頁,直到足以拼湊一段劇情為止,再來計算總共生成多少張、又從中採用多少張。
Thumbnail
2025/04/29
既然 BiliBili 上分享的 LoRA 號稱可一鍵生成漫畫,我決定只寫 prompt 來引導 AI 生成漫畫頁,直到足以拼湊一段劇情為止,再來計算總共生成多少張、又從中採用多少張。
Thumbnail
2025/04/22
或許舊作品消滅與 AI 生成風潮,只是證實內心對圖像價值的質疑。諷刺的是,我竟因為懶得開 SD 、漫無目的上網而看到新的可能性。
Thumbnail
2025/04/22
或許舊作品消滅與 AI 生成風潮,只是證實內心對圖像價值的質疑。諷刺的是,我竟因為懶得開 SD 、漫無目的上網而看到新的可能性。
Thumbnail
2025/04/15
測過 ChatGPT 寫提示的效果,我再無懸念,自己目前的流程問題開張 Google sheet 便能解決,用不著 AI。
Thumbnail
2025/04/15
測過 ChatGPT 寫提示的效果,我再無懸念,自己目前的流程問題開張 Google sheet 便能解決,用不著 AI。
Thumbnail
看更多
你可能也想看
Thumbnail
OpenAI 全新模型 o3、o4-mini 超猛登場!AI 不只會聊天,還會「看圖辦事」了! 圖像理解+推理升級 → 變身圖文小幫手! ✨視覺 AI x 邏輯推理 x 生活應用 = AI 超進化版! --- 你還以為 AI 只會聊天、寫文案?那你真的太落伍啦~OpenAI 最新
Thumbnail
OpenAI 全新模型 o3、o4-mini 超猛登場!AI 不只會聊天,還會「看圖辦事」了! 圖像理解+推理升級 → 變身圖文小幫手! ✨視覺 AI x 邏輯推理 x 生活應用 = AI 超進化版! --- 你還以為 AI 只會聊天、寫文案?那你真的太落伍啦~OpenAI 最新
Thumbnail
AI模型(人工智能模型)是指一種經過訓練的算法或系統,可以執行特定的任務或解決特定問題。這些模型通過處理大量數據來學習模式和規律,從而能夠做出預測、分類、生成內容等。 以下是AI模型的一些基本特點: 訓練數據:AI模型的性能很大程度上取決於它們訓練時使用的数据質量和數量。數據越豐富且多樣,模
Thumbnail
AI模型(人工智能模型)是指一種經過訓練的算法或系統,可以執行特定的任務或解決特定問題。這些模型通過處理大量數據來學習模式和規律,從而能夠做出預測、分類、生成內容等。 以下是AI模型的一些基本特點: 訓練數據:AI模型的性能很大程度上取決於它們訓練時使用的数据質量和數量。數據越豐富且多樣,模
Thumbnail
學習生成式AI,不僅僅是掌握幾個工具,而是從全方位了解AI的發展範疇及其潛力。我經常在企業教授AI課程時,會遇到HR詢問:某些工具用不上,可以不教嗎?當然可以,但如果同仁不了解生成式AI在「數位內容」上的廣泛應用,又如何掌握大語言模型的發展邊界?
Thumbnail
學習生成式AI,不僅僅是掌握幾個工具,而是從全方位了解AI的發展範疇及其潛力。我經常在企業教授AI課程時,會遇到HR詢問:某些工具用不上,可以不教嗎?當然可以,但如果同仁不了解生成式AI在「數位內容」上的廣泛應用,又如何掌握大語言模型的發展邊界?
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
Coatue長篇人工智慧報告精要 # AI迭代特性與生產力提升將比前幾次產業創新進程快速 # 融資主力目前集中於模型層級 # 趨勢轉變:從建立更快的「計算器」到建立超級智慧的「大腦」。
Thumbnail
Coatue長篇人工智慧報告精要 # AI迭代特性與生產力提升將比前幾次產業創新進程快速 # 融資主力目前集中於模型層級 # 趨勢轉變:從建立更快的「計算器」到建立超級智慧的「大腦」。
Thumbnail
2023年被各大主流媒體稱為AI元年,GPT4 在國際生物奧林匹亞競賽大放異彩,擊敗 99% 的資優生,無人可敵。擁有人工技術,等於擁有世界頂尖員工,24小時不停歇,為你不斷生出結果。然而,多數人對 AI 基本知識仍不明白,知識差距急速擴大,要想不被AI取代,必須懂AI與活用AI。
Thumbnail
2023年被各大主流媒體稱為AI元年,GPT4 在國際生物奧林匹亞競賽大放異彩,擊敗 99% 的資優生,無人可敵。擁有人工技術,等於擁有世界頂尖員工,24小時不停歇,為你不斷生出結果。然而,多數人對 AI 基本知識仍不明白,知識差距急速擴大,要想不被AI取代,必須懂AI與活用AI。
Thumbnail
ChatGPT於2022年底問世後,人們陷入興奮、緊張、恐懼的情緒。ChatGPT屬於大型語言模型,簡稱LLM(large language model)。⋯ 一旦LLM開始變成服務後,當一個人無法駕馭一個LLM時,被淘汰的變成是LLM而非這個人了。⋯
Thumbnail
ChatGPT於2022年底問世後,人們陷入興奮、緊張、恐懼的情緒。ChatGPT屬於大型語言模型,簡稱LLM(large language model)。⋯ 一旦LLM開始變成服務後,當一個人無法駕馭一個LLM時,被淘汰的變成是LLM而非這個人了。⋯
Thumbnail
AI浪潮 自從去年ChatGPT後,AI這個本來沉寂已久的話題,瞬間火爆全世界,不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型,包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等,抑或是開始推出自己的生成式AI工具等等,例如Google的Bard、百
Thumbnail
AI浪潮 自從去年ChatGPT後,AI這個本來沉寂已久的話題,瞬間火爆全世界,不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型,包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等,抑或是開始推出自己的生成式AI工具等等,例如Google的Bard、百
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News