從2022年AI繪圖迅速掘起,到如今一年多的期間,各平台相互競爭不斷快速進化,幾個主流AI繪圖平台都發展出各自的優勢特色(Adobe Firefly、Midjourney,Stable Diffusion、Leonardo.Ai)。而其中Stable Diffusion的免費開源以及更高的操控自由度是我目前最喜歡使用的AI繪圖工具。
Stable Diffusion 簡介
Stable Diffusion是由Stability AI所訓練開發並且開源提供免費使用的圖像模型。可透過文字轉換為圖像(文生圖,txt2img),也可以利用現成圖像/搭配輔助文字轉換成其他圖像(圖生圖,img2img)。
Stable Diffusion是一種擴散模型(diffusion model)的變體,叫做「潛在擴散模型」(latent diffusion model; LDM)…..→對偏學術理論這部分想深入研究的可再去Google找相關論文來看。或是參考下面影片講解關於Stabble Diffusion 背後運作生成的原理。
對於長期只和圖像打交道的我來說,要去閱讀這些模型背後的專業術語與原理程式實在很痛苦,每個字我都認得,但組合在一起後就又似懂非懂霧煞煞@@。最後我只好用自己理解的簡化方式去架構一個輪廓印象,方便後續實際操作生成圖像時,知道各參數的調整是大致對應/介入到圖像生成的哪個步驟階段,以便掌握出圖方向能盡量如自己所預期就好 :
就把Stable Diffusion當成一個畫家,只是它的腦袋對於學習圖像繪畫的方式和真人不同。它會把每張圖像反覆進行”加噪聲”和”去噪聲”的過程(每一步加噪/去噪都讓圖片只比上一步模糊/清晰一點點,讓學習過程中對原圖的畫法/樣貌都能”有跡可循”,形成”技巧/經驗”),並且同時搭配上圖片對應的文字資訊(Caption),進而學會特定物件主體/風格的特徵和畫法。
就這樣餵給它動輒數十億張起跳包山包海的圖片反覆同樣動作學習後,就成為可供我們進行AI繪圖使用的圖像模型(一個掌握了數十億張各類圖片主題內容/風格特徵畫技的畫家)。
有了這個圖像模型(畫家)後,當我們要求它畫一張xx主題的圖時,給它一段文字指令/或是文字指令+參考圖片,它就會根據指令將隨機產生佈滿噪聲的圖一步步Denoising(去噪)成像。而Stable Diffusioin操作介面中的各式參數(ex. Clip skip、CFG Scale、Denoising strength…)或外掛(ex. ControlNet…),分別就在成像的過程中介入到對應的階段進行加強/減弱/指引/限制…等,讓生成的圖像往我們需要的構圖/方向/…去產出。
Stable Diffusion 優點
- 開源免費 :
Stable Diffusion免費。而相較於其它目前幾個熱門的AI繪圖工具來說 :
Midjourney最低10美元/月起跳(10美元大約只能畫200張圖),AI繪圖很需要不斷反復嚐試出圖,一個月200張實在是非常不夠用。認真要玩AI繪圖的話,至少都會需要訂閱30美元/月以上的方案才夠用。
Leonardo.Ai每日免費點數額度有限並且有些進階功能需付費才能使用。它提供了一個讓剛接觸AI繪圖以及對軟體程式安裝等基礎完全不懂的人來說,相對比較好快速上手的操作介面,但它在圖像生成的控制變化自由度上比起Stable Diffusiion終究還是大打折扣。 - 豐富強大的擴充外掛資源 :
因為是開源軟體,網路上有眾多神人開發出的各種外掛附加擴充功能,比如最有名的ControlNet,讓你除了文字描述以外,能夠有其它輔助方法去控制生成圖像的構圖/姿勢/物體空間前後關係…等,畢竟很多時後人與AI之間,光靠語言文字溝通,最終成果還是會有一定的差距。其它還有高清放大、影片生成、工作排程自動跑圖/算圖、影像去背……等,開源社群開發新應用外掛功能的速度都是比單一公司平台的開發更新來得快得多。 - 可本地部署 :
與Midjourney或是其它AI繪圖平台是透過Discord對話或是網站介面操作不同,Stable Diffusion可以在本地部署,簡單來說就是可以把AI繪圖軟體/模型安裝在自己的電腦主機裡。如此一來,即使是在沒有網路的時後也能使用,並且能有更好的安全隱私性。不用擔心你產出的圖或是上傳用來img2img的圖也許會在你所不知道的地方被服務平台拿來濫用。比如Midjourney,仔細看他們的使用條款裡,Rights You give to Midjourney這段。
只能說,Midjourney兩頭賺,訂閱月費收一筆,然後你產出來的圖他們是有權可以任意使用,不單單只是回吐到模型裡當訓練材料而已。
- 對生成的內容無限制審核 :
大多AI繪圖平台都會對一些特定”不適當/不健康(NSFW)”的關鍵字進行管制,無法生成。而使用Stable Diffusion則就沒有這方面的限制,完全自由。
Stable Diffusion 缺點
- 硬體設備門檻較高
不像其它AI繪圖平台,硬體設備上沒什麼要求,只需要一台可以連上網的電腦就能開始AI繪圖。想要安裝運行Stable Diffusion,電腦配備一張獨立顯卡是必需的,而顯卡規格的要求是顯存(VRAM)愈大愈好,基本最好有8G以上,跑現在普遍使用的1.5版本還算夠用(網上看4~6G勉強也能跑得動,但只適合拿來生成小圖)。前幾天剛新發佈的Stable Diffusion XL 1.0版本則是最低需要8G以上,理想最好有12G以上。一分錢一分貨,下次換電腦時我寧可一次直上最高規格的顯卡,多花點錢提高算圖效率省下來的時間絕對是划算的。
如果不想升級電腦設備的話,也可租用雲端伺服器(ex. Google Colab)來進行安裝與運算處理。如果是初期想試看看AI繪圖的話可以這麼做,但一樣要花錢,認真要常使用AI繪圖的話,長期下來,買一台能運行的電腦主機來用還是比較理想的。 - 初期安裝使用/學習門檻較高
在安裝使用上,因為是開源軟體,網路上資源豐富多元的同時,對於沒有程式相關基礎的人來說,反而過於雜亂無章,會有理不清頭緒的問題。沒有一個基礎框架的概念,單純一味參照網上各種教學一直下載擴充,常常就是一出現相衝突的bug時就兩眼一摸黑無從下手,最終只能整個重新安裝。
在學習門檻上也因為Stable Diffusion除了文字描述外,另外還眾多可以自由調整控制模型生圖結果的參數與外掛,因此初期也就需要多花些時間學習了解所有參數背後所代表的義意/對出圖效果會有怎樣的影響之後,才能生成出相對穩定品質的圖像。
Stable Diffusion 商業/變現應用
如果只把AI繪圖當玩具刷美圖在社群平台上自嗨實在太浪費了,基於Stable Diffusion目前比起其他繪圖平台對圖像生成有更高的可控性(未來在精準度上也會愈來愈精進),讓它具備除了提供創意發想/生成美圖以外,有更實際的商業/變現應用。
- 對電商業者來說,產品設計、定制虛擬模特、產品上身換裝商品照….等。
- 對繪畫/插畫師來說,不管是初期的提供創意、最後線稿上色(不管是2D、2.5D還是3D,水彩還是油畫)節省時間效率,你只要把心力放在審美、微調修改、方向掌控的統合就好。
- 對室內建築設計相關的從業人員,呈現給客戶提案的視覺圖不管你要怎樣來來回回修改,很快都能依需求快速出圖進行溝通。
- 又比如像我這樣的圖庫供圖者/自由業創作,甚至原本與這專業不相關的人,也可以利用AI繪圖來產生素材圖或是其它各種創作來販售 : Line 貼圖、線上Print on Demand產品、Amazon上自助出版童書繪本…..。
- AI換臉…..
- ………….
- ………….
總之,各行各業,任何人都可以從中找到能應用獲利的地方,就看你有沒有心去思考、發掘了。