隨著 MidJourney 愈趨成熟以及 DALL·E 3 的發佈,影像生成式 AI 的發展已顯白熱化,不管是業界老牌 Adobe 或是其他它提供開發 APIs 的 Startups 像是 Leap AI等,主要是利用提示詞 (Prompt) 與模型 (Models) 實現高度創新的輸出。 雖然這是簡化的說法,但也確實揭示了這波 AI 熱潮背後的核心機制。但是這些生成模型 (Generative Models) 至今仍有不少未解之謎,特別是涉及神經網路隱藏層 (Hidden Layers) 的運作方式,也讓輸出 (Outputs) 一致性的掌握變得更加複雜。再者模型訓練的道德版權問題,除了 Adobe 清楚聲明來自自家社群平台,就我目前所知,許多也是尚未定論。雖是如此,並不意味它只是一個短暫的風潮,我認為它將會逐步讓人們重新建構工作新模式,特別是哪些部分 AI 可以做得很好的,哪些是人不會被取代的。
Vizcom 共同創辦人 Jordan Taylor 曾是一位汽車工業設計師,他注意到從 2D 概念轉變為 3D 模型耗時的歷程,因此 Vizcom 目標則在於縮短這個過程1。在這個平台上,使用者可以上傳草圖,藉由提示詞快速生成 3D 渲染概念圖。除了使用提示詞之外,使用者可以藉由平台的 Refine 細化、Inpainting 圖像修補、Drawing Influence 草圖影響程度, 和 Layers 圖層等功能,讓使用者能更掌握輸出結果。不管是從草圖到渲染圖, 或從 3D 模型到更精準的渲染預視,Vizcom 無庸置疑加速了創意發想過程,同時讓「人腦」保有一定程度地參與輸出結果。
Vizcom介面 Image by author.
使用提示詞和圖層功能進行迭代 Image by author.
電動牙刷概念化 Image by author.
設計師在概念發想階段,總是成千上萬的點子在腦袋裡飛,然而,在討論和溝通這些概念時,一張圖往往勝過長篇的說明。影像生成式 AI 在概念化過程的引入,讓設計師可以快速實驗更多種可能性並獲得即時反饋。這也回到文章最初所提到的,如何充分利用 AI 的優勢,同時仍能在某種程度上掌握輸出結果2。
電動牙刷概念化過程 Image by author.
Vizcom 的功能不多,對設計師的我來說都是很精準的設計,可以看出在滿足高品質視覺化輸出的使用經驗上下了很多工夫。
提示詞 Prompt
在 Vizcom 使用提示詞順序有權重的分別。放在最前面的字詞對輸出結果影響成分較高,置於最後影響較低。字詞間以逗號分隔。避免提示詞裡含有設計師或藝術家的名字,會跳出 Popup 提醒,但品牌名稱是可以的。
草圖影響程度 Drawing Influence
當使用草圖進行渲染前,可以決定草圖影響渲染成果的程度。100%代表草圖內容具有決定性的影響,0%則是完全無影響,換言之,當設為 0 時,AI 模型跟提示詞具有決定性的影響,將得到高度創意但難以預測的輸出結果。可以參考上方草莓的圖片,Drawing influence 為 100%,電動牙刷則在40%~100%不等。
另一個值得注意的是,草圖盡量以乾淨線條稿為主,如果想要在渲染時呈現一些反光或是明顯的效果,加重的明顯線條會有所幫助3 4 5。
渲染效果 Render Style
圖片來源 https://docs.vizcom.ai/render-styles
圖層 Layers
就像 Photoshop 一樣,圖層可以調整透明度以及混合效果 (目前只有正常Normal與加深 Multiply) ,也可以新增 3D 物件圖層。每一次確認過後的渲染,都會自動新增到新圖層,更棒的是,提示詞也會自動成為圖層名稱。
使用3D物件圖層經過多次概念渲染、細調 & 影像修補,最後在Photoshop做最終呈現. Image by author.
細調 Refine
細調是對渲染過的影像進行反覆的精煉、強化細節,或是從色塊開始建構物件,它不會像渲染一樣會有背景產生6 7。
由色塊開始建構物件. 圖片來源 https://docs.vizcom.ai/refine-mode
圖像修補 Inpainting
圖像修補針對特定的區域進行編輯,例如上方電動牙刷只針對刷頭下方渲染,其他範圍不會跟著改變8。
歷史紀錄 History
所有的渲染與調整都會有歷史紀錄。這些紀錄可以回復也可以轉存,非常強大。
Vizcom 也分享了如何導入現有工作流程的經驗,從輸入清晰的草稿開始,先進行 Volume 風格渲染,讓物件具有 3D 基本型態。接著利用細調以及修補調整至設計所需,再給予進階提示詞進行高寫實圖片渲染。
圖片來源&影片連結 🔗 https://www.youtube.com/watch?v=H_6W45RwarY
Vizcom 免費帳戶可以建立無限制的檔案,專業版本提供快速渲染 、一次可以產出四個輸出、以及團隊協作等進階功能,另外也提供企業方案。Vizcom 符合 SOC 2 類型 I 的合規性,並將其基礎架構托管在 AWS 上。該公司僅收集最少量的個人資料,如名稱和電子郵件。付費用戶保有其數據的所有權和保密性,而免費用戶則無法獨占其數據。9
在使用這類 AI 工具時,隱私條款是一個我不會遺漏的部分。一個小訣竅如何快速掌握這類資訊:Arc Browser 近期推出整合了一些 ChatGPT 功能的 Arc Max,啟用選項後,你可以使用 Ask on Page (⌘F) 功能,直接利用 GPT-3.5 針對網頁內容進行對話與查詢。目前這項功能免費,未來尚未確定。由於 Arc 會與他們的合作夥伴分享數據,如果你想在涉及個人隱私資料的網頁上使用 Ask on Page的話,則需要留意。因為這是另一個話題,若想要了解更多,可以留言我再進一步分享。利用 Arc Browser 這個新功能,就可以很快了解這些通常被跳過但藏著魔鬼的細節。
不管是 Vizcom 或其他影像生成式 AI 平台,讓想像力侷限已不再是障礙。依據不同的使用需求,選擇適合的工具已是現代工作者專業技能。在 Vizcom 社群中,有藝術家也有不同產業的設計師,都在思考如何將 AI 的優勢融入現有的工作流程,更高效地創造出優質作品。
就如同 Vizcom 的目標是在於縮短草稿到 3D 高寫真渲染的時間,提供在概念階段更快速和多元的設計選項,相信也會開始有人想要簡化冗長且繁瑣的 3D 建模過程的方法。對於整個產業而言,消除每個細節中的阻礙最終將促成下一代更進步的工作流程。值得留意的是,這裡討論的是人們在最終輸出上有一定程度的控制,而不是完全依賴於演算法生成的隨機結果。
我非常好奇大家如何在工作上使用生成式 AI ,以及看待它在工作上帶來的影響。我是個樂觀主義者,我相信若我們思考過所有到達終點可能發生的優缺點,就能在過程中盡可能減少缺點發生的機率或降低缺點發生的影響。隨著 AI 不斷的持續進步,是否我們可以解開魔術箱裡的黑魔法?當每個人的能力都提升了,「創造力」一詞是否會有新的定義?我將持續觀察這個議題,並根據自己的實際經驗提供更新,也非常期待讀者能與我一同探討這些問題。