以小搏大【2022/12】

以小搏大【2022/12】

更新於 發佈於 閱讀時間約 5 分鐘

2021/6,微軟研究團隊發表一篇論文,提及針對大模型重新訓練,將產生大量計算導致成本高昂。但如果先凍結模型本身的權重,再插入層層套件調整模型運算,就能縮減大量計算需求、獲得有效的微調模型輸出結果。該研究在 RoBERTa、DeBERTa 和 GPT-2 上面嘗試,對局外人的我來說,


這都是個啥啊。


想像語言模型的運作原理、重新訓練語言模型的原理,以及在此之上新作法能優化的原理,抽象的概念一層一層往上疊,不了解的情況下就算設想出了譬喻來教大家,也只會寫出徒有形式缺乏精髓的介紹文,就像給 AI 一堆外表敘述提示詞,叫 AI 生成一個模型根本沒練到的角色一樣,特點都有,但就不是她。

提示詞 : 淺粉紅色長直髮、分瀏海、右側太陽穴、兩對紅色角、紅色眼睛、圈狀眼、揚眉、獠牙、深藍色運動夾克、半穿夾克、白色襯衫配黑色領帶......問題來了,這是哪位角色呢?

提示詞 : 淺粉紅色長直髮、分瀏海、右側太陽穴、兩對紅色角、紅色眼睛、圈狀眼、揚眉、獠牙、深藍色運動夾克、半穿夾克、白色襯衫配黑色領帶......問題來了,這是哪位角色呢?


幸好這問題,微軟那篇論文就能解決。


在 2022 年最後、Civitai、chichi-pui 宣布成立公司過沒幾天,GitHub 用戶 cloneofsimo 提出將微軟那篇論文介紹的新訓練方法:Low-rank Adaptation,簡稱 LoRA,應用在訓練 SD 模型上。論文裡難以想像的概念,瞬間變得直覺了:


AI 產圖模型太大了,重新訓練耗電腦設備,而新算法可以降低訓練成本,現在就算個人電腦也有機會訓練 LoRA ,讓 SD 模型去"畫"模型沒學過的東西啦 !


過往想讓 AI 產製特定角色的難點在於,如果訓練一整個幾 GB 大小的 Checkpoint ,才有辦法畫出「一個人」,總有一天會產生這樣訓練與儲存到底划不划算的終極大哉問。相較下 LoRA 模型大幅縮減了訓練需求的資料量、檔案只需要幾有一百多 MB,一台電腦內可以裝載更多,供普通用戶揮灑更多可能性。

雖然依照電腦性能,訓練 LoRA 模型這種新技術,依舊可能需要等待幾十分鐘甚至幾小時之久,而我顯然缺乏在我的 4GB 獨顯筆電上測試的勇氣。因為這台筆電剛買不到半年啊 ! 看看幾個月內 AI 圖像生成發展成什麼樣子 !


長遠來看,LoRA 技術在圖像生成的應用,讓更多人有能力作為供給者。過往只能讚嘆網路上那些設備好、有技術,可以自己融模型的大神,現在新作法只要準備適量的素材,便能生成自己喜歡的角色。而 Civitai 能容納各種檔案類型的設計,成為許多嘗試新技術用戶進行分享的園地。技術給了用戶參與的機會、平台給了用戶發揮的空間——


下一輪 AI 產圖風潮,自然水到渠成。


當時的我渾然不覺,慣例每日下班逛逛 Civitai。


儘管有一個平台海納百川,並且每天都有新東西是令人欣喜的事情,但最近 LoRA 這種新玩意兒未免太多了吧 ? 我仍偏好目前體積最小的文本反轉 pt 檔案,相較於 LoRA 一百多 mb,Embedding 的檔案只需要幾十 kb,單位空間下一定能存比較多 !


之後的日子,我刻意優先尋找 Embedding 下載使用,同樣能輸出特定角色,筆電存的檔案越多,便有越多工具、越寬廣的空間讓我發揮。可惜 Embedding 越來越難找,因為 LoRA 檔案數量指數成長,晚上瀏覽 Civitai 的時間越來越長。偶爾對 Embedding First 的意義感到迷茫,但想起那些致力於降低 AI 技術門檻的開發者與學者們,追求以小小套件微調整個大模型,那我堅持以更小的 Embedding 扭轉產出結果,意義在於與他們同心啊 !


直到隔年一月,我下載了某幹員的 Embedding,提示詞只有一個英文字母"W"。使用時一切正常,我不疑有它,繼續嘗試其他主題,這時怪事卻發生了 :

我發現如果不加強外表的權重,出圖人物都接近剛才那個套件的形象。

問題是,這時候我根本沒輸入會啟動套件的提示詞 ?

"W" by 明日方舟,雖然是 AI 生成無法避免細節有誤

"W" by 明日方舟,雖然是 AI 生成無法避免細節有誤


該不會召喚了哪位賽博女鬼吧,待我仔細檢查,才發現原因在於我輸入了模型看不懂的英文詞彙。AI 判定提示詞是看 token、不是看單詞本身,所以詞彙無法理解時,模型會將其拆分,直到出現能理解的詞。那串詞彙裡面恰好有個"W",顯然 AI 拆分後得到了W、啟動 Embedding、導致生成的每張圖都是某幹員形象。


而這就是新技術 LoRA 和過往 Embedding 的區別之一。 LoRA 有特定格式的呼叫詞<LoRA檔案名稱:權重> 來啟動檔案。沒有這組詞彙,LoRA 將無法啟動,避免發生一串敘述中恰好包含特定提示詞,意外觸發 Embedding 的狀況發生。



是時候嘗試 LoRA 了!!!




使用civitai網站上的角色Embedding生成,漫畫《鏈鋸人》的角色帕瓦。前面的圖雖然特徵相似,但有沒有用特定Embedding還是看得出來有差吧?

使用civitai網站上的角色Embedding生成,漫畫《鏈鋸人》的角色帕瓦。前面的圖雖然特徵相似,但有沒有用特定Embedding還是看得出來有差吧?



avatar-img
Bsh的沙龍
3會員
47內容數
記錄我在 2022 年 9 月之後使用 AI 生成圖像的嘗試。 這個主題總有一天會沒東西好寫,那就走一步算一步吧...…
留言
avatar-img
留言分享你的想法!
Bsh的沙龍 的其他內容
體驗過企業開發的閉源 AI 寫作工具,為了建立審核機制而變得越來越笨拙,卻仍有新用戶因為剛接觸,好像發現新天地似的讚嘆不已,讓我覺得挺諷刺但莫可奈何。
2021 年 AI Dungeon 因審查風波在社群炎上後,我循著 Reddit 尋找可以放心和 AI 續寫文本的新住處。 NovelAI 太貴、KoboldAI 太難,有沒有折衷選擇...?
Open AI 逐漸不那麼“Open”,越多人用 AI Dungeon、 Latitude 就得付給 OpenAI 越多錢。用戶使用高峰期,一個月便得在文本生成技術與雲端運算上支付將近二十萬美元。 但挑戰不僅如此。
在 Stable Diffusion 推出前,圖像生成是怎樣的情況......? 其實 AI Dungeon 自 2020 年 5 月起,與 Artbreeder 圖像生成服務合作,但我去那寫文就是要看故事,沒怎麼關心這功能。
直到2019年11月,OpenAI終於發布了15億參數、完整版本的 GPT-2。 在完全版公開一個月後,Nick Walton發布以該模型運作之文字冒險遊戲《AI Dungeon 2》。
生成式AI發展迅速,GPT-2已成為時代的眼淚了 但問我何時開始嘗試AI文本生成.....Character AI? AI Dungeon? 不不不,最早可能得從2019年談起......
體驗過企業開發的閉源 AI 寫作工具,為了建立審核機制而變得越來越笨拙,卻仍有新用戶因為剛接觸,好像發現新天地似的讚嘆不已,讓我覺得挺諷刺但莫可奈何。
2021 年 AI Dungeon 因審查風波在社群炎上後,我循著 Reddit 尋找可以放心和 AI 續寫文本的新住處。 NovelAI 太貴、KoboldAI 太難,有沒有折衷選擇...?
Open AI 逐漸不那麼“Open”,越多人用 AI Dungeon、 Latitude 就得付給 OpenAI 越多錢。用戶使用高峰期,一個月便得在文本生成技術與雲端運算上支付將近二十萬美元。 但挑戰不僅如此。
在 Stable Diffusion 推出前,圖像生成是怎樣的情況......? 其實 AI Dungeon 自 2020 年 5 月起,與 Artbreeder 圖像生成服務合作,但我去那寫文就是要看故事,沒怎麼關心這功能。
直到2019年11月,OpenAI終於發布了15億參數、完整版本的 GPT-2。 在完全版公開一個月後,Nick Walton發布以該模型運作之文字冒險遊戲《AI Dungeon 2》。
生成式AI發展迅速,GPT-2已成為時代的眼淚了 但問我何時開始嘗試AI文本生成.....Character AI? AI Dungeon? 不不不,最早可能得從2019年談起......
本篇參與的主題活動
在生成式AI與大型語言模型(Large Language Model, LLM)蓬勃發展下,有許多工具可以幫助我們學習與撰寫程式,這篇文章提供了實作範例與一些經驗,分享如何使用ChatGPT(免費的GPT-3.5)協助程式語言的學習,並且完成屬於自己的程式。
前幾個禮拜,AWS 舉行 Startup Day Taiwan。想當然爾,最熱門的主題非生成式 AI (Generative AI) 莫屬。既然 AWS 有現成的工具,身為一名工程師,自然看看無妨,這篇文章算是新手開箱文,會說明如何部署一套基礎模型,並使用 AWS SDK 與其互動。
前言 我在工作中沒有什麼機會接觸到機器學習,學生時期也沒有學習過相關知識。 作為一個業餘小白,我對機器學習非常感興趣。在自學的過程中,我逐漸意識到利用機器學習可以做很多有趣的事情。 因此,我決定嘗試使用 AWS SageMaker JumpStart 來實驗文字生成式繪圖 AI ,以了解機
在生成式AI與大型語言模型(Large Language Model, LLM)蓬勃發展下,有許多工具可以幫助我們學習與撰寫程式,這篇文章提供了實作範例與一些經驗,分享如何使用ChatGPT(免費的GPT-3.5)協助程式語言的學習,並且完成屬於自己的程式。
前幾個禮拜,AWS 舉行 Startup Day Taiwan。想當然爾,最熱門的主題非生成式 AI (Generative AI) 莫屬。既然 AWS 有現成的工具,身為一名工程師,自然看看無妨,這篇文章算是新手開箱文,會說明如何部署一套基礎模型,並使用 AWS SDK 與其互動。
前言 我在工作中沒有什麼機會接觸到機器學習,學生時期也沒有學習過相關知識。 作為一個業餘小白,我對機器學習非常感興趣。在自學的過程中,我逐漸意識到利用機器學習可以做很多有趣的事情。 因此,我決定嘗試使用 AWS SageMaker JumpStart 來實驗文字生成式繪圖 AI ,以了解機