我以為裝 SD 前,線上產的圖沒有存,卻意外找到檔案啦?
儘管只有一點點,還是以此為題補一下當時嘗試線上產圖的印象。之後標註「補記」的文章,預計都是值得一談,但我手上沒有足夠素材可以佐證的主題。
Stable Diffusion 資訊剛在網上散布時,我觀望著要不要安裝,幸好除了 Hugging Face 上的 Demo,Stability AI 也推出了 DreamStudio 網站,讓大家可以更簡便地體驗人工智慧生成圖像。
相較 Demo 版一次只能產出四張 512 x 512 的圖,DreamStudio 開放了尺寸、cfg、step、數量給用戶調整,但產圖會消耗網站給予新用戶的 credits,當總數 100 的 credits 用完,必須購買 credits 才能繼續產圖。
如此一來,不確定效果就不想花錢的我,自然沿用最基本設置,讓 AI 生成廣場上舉辦演唱會的圖給我瞧瞧。
AI 產出了彷彿外國嘉年華活動現場照,然而或許提示詞僅簡單提了「充滿民眾的廣場」,多試幾次生成結果逐漸偏向由遠處鳥瞰充滿民眾的戶外廣場,若把這種圖直接用在參加活動心得文,顯得作者只在外圍拍照而不進去,懶惰到極致。
既然是活動攝影,重點是參與其中的人啊!表演者與觀眾的互動!
因此我開始找圖片,上傳 DreamStudio 讓 AI 參考產生近似構圖。然而此時即使是圖生圖,缺少重繪功能可控性依舊極低。我發現就算找到參考圖,圖生圖的抽卡性質和文生圖差不多,因為參考圖完全無法協助 AI 定義圖片構圖:
以上三張圖是 AI 參考同一張圖,生成的結果,驚不驚喜,意不意外?
至少跳脫鳥瞰視角了,感謝 AI 屈就隨我站在庶民角度看世界。
既然圖生圖也難以控制畫面,我將注意力轉回提示詞,先前實驗可發現 SD 模型產圖風格傾向於現實,這次刻意嘗試現實不可能發生的情況:
廣場上民眾圍觀表演,但怪獸闖進來了。
超像把各種雜誌插圖剪貼、湊合成的突兀拼貼畫,也難怪日後網上會出現一派認為 AI 產圖就是拼貼素材的看法了。
但害 AI 造怪圖的人是我啊,當時人工智慧與其說生成圖片,不如說是生成一種「氛圍」,解讀提示詞數據並把對應的數據在雜訊上收斂,呈現出符合提示的整體印象,但細節亂成一坨糨糊。所以 DreamStudio 網站可以呈現室外活動的「氛圍」、可以呈現怪獸現身的「氛圍」,但我惡意要求 AI 兩種一起呈現,AI 就只能產怪圖然後被我當笑柄啊,
看看提示詞使用「賽博龐克街道」、「降雨」、「行走的武士」,生成的畫面不就顯得和諧、充滿氣氛了?顯然 AI 產圖是一款我的問題,該沿用過往大家都在畫,所以 AI 學習資源特別多的主題去產圖,才能產出同樣精美的 AI 圖片,在人工智慧與自媒體風潮興盛的時代,特立獨行不只難受 TA 青睞,連 AI 大模型也接受不能啊~
我就是在這個網站上發現,當時的 AI 生成寫實場景總有難以忽視的缺陷,人類構築的建築物往往由直線或幾何構成、條理分明;人工智慧生成的直線必定歪、細節必定出現融合,導致 AI 生成背景一眼望去明顯古怪。但這類缺陷應用於生成破壞、受損的殘骸類場景,卻往往帶有奇效。或許這段經驗影響了我初期嘗試 AI 生成的方向。
那生成寫實人像呢?
這個網站讓我發現,想在小尺寸圖片生成肢體正常的人,就得讓人佔較多畫面空間,然後觸發違規的機率就提高、過濾器過濾導致的黑畫面就增加,歷經免費額度用罄,還破費購買了一些 credits 的我,
終於認清當時買廠商服務來 AI 抽卡有夠蠢,把這筆錢投入手機遊戲抽卡,至少人物立繪、角色設計品質有保障!不會歪手歪腳!不會和諧卡面!
在 DreamStudio 遭遇的挑戰,沒讓我轉向同類型的 Midjourney,而是意識到 AI 產圖架設在本機上的重要性,由觀望轉為實際動手安裝 SD。兩路分岔而我選擇了其中一條路,或許後果截然不同,讓時間驗證這場變革吧。