最近 Stability.Ai 這間公司又發表了一個新的Model 叫做 SDXL Turbo。眾所周知SDXL 對比過去的 SD 1.5 的特性是,Model比較大,不但可以產生構圖較好的AI畫作,也能夠產生較高解析度的圖片。 但是這款SDXL Turbo 主打的確是完全不同的方向,SDXL Turbo主打可以1 step就產生一定品質的圖片 (圖片品質比SDXL甚至SD 1.5還要低),完全是以速度取勝,那麼SDXL Turbo這個技術代表的是怎樣的突破呢? 究竟秒出圖的技術能夠有什麼實際的應用呢? 這就是我們這篇想要探討的。
首先我們還是來看看SDXL Turbo實際上操作的樣子,我們這篇不是教學怎麼使用SDXL Turbo所以不會討論到安裝的部分,實際上使用需要去下載SDXL Turbo的Model,並且推薦使用Comfyui 較為彈性。 能夠做到的狀態,大概就是如下圖
雖然Gif檔的解析度不夠高,但是大家是可以看到,隨著我自己一邊改變提示詞(prompt),圖片裡的畫面就會即時更新,為什麼可以做到這樣呢? 因為SDXL Turbo的產圖速度太快了,如果顯卡夠力甚至可以0.1秒就產一張圖,就可以做到一邊改提示詞一邊馬上看到圖片更新。
再來SDXL Turbo本身也能加上導引的Painting node,那麼就能做到底下的效果
也就是除了提示詞以外,我一邊畫用作導引的圖,右邊的AI生圖也能即時更新。導引圖可以針對顏色,構圖等等的做出導引,可以說是非常有意思的應用。
那麼,究竟AI秒出圖的意義在那邊呢? 這才是我想要探討的議題,粗淺的稍為思考了一下,我想針對幾個情境來思考。
第一個情境是,原本就對於需要產生畫作的工作,這有可能是2D/3D設計師,插畫師,美工排版人員,小編等等。SDXL Turbo 這種秒產圖的能力可以說是有非常直接的貢獻,畢竟你可以在固定其他參數的狀態下,快速的微調你的提示詞,甚至是與ChatGPT一起協做發想提示詞,用超快的速度產出各式各樣不同的圖案,再從滿意的風格/提示詞中選擇大的Model 如SDXL 去產生好的高解析度圖案。 而 SDXL with painter node 也提供了可以有效的控制產出的方式,可以說是讓設計師從簡單的構圖還有色彩馬上就能看到成果,可以讓設計師更為集中精力在如何傳達產品/圖片的精神上。
第二個情境我們就要跳脫"設計師"還有"美工"這個領域了,我們來思考確實需要圖片創作但是卻不是直接與設計相關的部分,能否應用到這個新技術呢? 最直觀馬上可以想到的就是類似Powerpoint 投影片創作的部分,相信很多上班族都看夠了平淡無奇僅僅有文字的投影片吧? 如果說搭配上這樣秒產圖的技術,讓你一邊創作投影片的時候,AI立刻自動替你補上圖片說明,讓你的投影片一看就能理解,那麼是不是有很大的幫助呢?
這應該是馬上就能夠實現的,不過我認為這個功能,應該是會由Microsoft Office 的Office copilot 直接實現,而其他所有的設計或是簡報類的軟體,應該都會馬上導入這個技術的。
最後一個我們要探討的,就是跳脫傳統設計領域,且傳統上也不需要圖片的應用領域,那麼這包含什麼領域呢? 其實我覺得這應該才是最有意思且潛力最大的,舉例來說 Meta(Facebook)就有在他們發表的演說裡面提到,將來會將這種繪圖的應用用到類似messenger的即時通訊之中,那麼只要交談的人有意願,AI隨時可以把你們談論到的事物具象化,或是把你的表情即時的產出一個emoji。
另外這樣的技術也能夠應用到譬如電子小說/電子遊戲之中,讓原本只有文字介面的小說/文字型電玩直接變成是圖文並茂(或是理所當然的搭配AI產生的音樂的產品),而在娛樂的範疇或社交網路的範疇,更有無限多的應用,並且讓 content creator 的想像力能夠解放。
最後的想法就是,這樣超快速產圖的科技,會讓Generative AI快速的下放到手機/平板等隨身的設備上面,而這樣可以激盪出怎樣的火花呢? 這就是我們可以持續思考(也應該是潛力無窮的地方了)