方格子 vocus

補記 : 變革前夕【2022/9/18】

Bsh

發佈於AI越快，這裡則慢

2024/10/18 更新2024/10/18 發佈閱讀 5 分鐘

我以為裝 SD 前，線上產的圖沒有存，卻意外找到檔案啦?

儘管只有一點點，還是以此為題補一下當時嘗試線上產圖的印象。之後標註「補記」的文章，預計都是值得一談，但我手上沒有足夠素材可以佐證的主題。

Stable Diffusion 資訊剛在網上散布時，我觀望著要不要安裝，幸好除了 Hugging Face 上的 Demo，Stability AI 也推出了 DreamStudio 網站，讓大家可以更簡便地體驗人工智慧生成圖像。

相較 Demo 版一次只能產出四張 512 x 512 的圖，DreamStudio 開放了尺寸、cfg、step、數量給用戶調整，但產圖會消耗網站給予新用戶的 credits，當總數 100 的 credits 用完，必須購買 credits 才能繼續產圖。

如此一來，不確定效果就不想花錢的我，自然沿用最基本設置，讓 AI 生成廣場上舉辦演唱會的圖給我瞧瞧。

AI 產出了彷彿外國嘉年華活動現場照，然而或許提示詞僅簡單提了「充滿民眾的廣場」，多試幾次生成結果逐漸偏向由遠處鳥瞰充滿民眾的戶外廣場，若把這種圖直接用在參加活動心得文，顯得作者只在外圍拍照而不進去，懶惰到極致。

既然是活動攝影，重點是參與其中的人啊！表演者與觀眾的互動！

因此我開始找圖片，上傳 DreamStudio 讓 AI 參考產生近似構圖。然而此時即使是圖生圖，缺少重繪功能可控性依舊極低。我發現就算找到參考圖，圖生圖的抽卡性質和文生圖差不多，因為參考圖完全無法協助 AI 定義圖片構圖：

以上三張圖是 AI 參考同一張圖，生成的結果，驚不驚喜，意不意外？

~~至少跳脫鳥瞰視角了，感謝 AI 屈就隨我站在庶民角度看世界。~~

既然圖生圖也難以控制畫面，我將注意力轉回提示詞，先前實驗可發現 SD 模型產圖風格傾向於現實，這次刻意嘗試現實不可能發生的情況：

廣場上民眾圍觀表演，但怪獸闖進來了。

超像把各種雜誌插圖剪貼、湊合成的突兀拼貼畫，也難怪日後網上會出現一派認為 AI 產圖就是拼貼素材的看法了。

但害 AI 造怪圖的人是我啊，當時人工智慧與其說生成圖片，不如說是生成一種「氛圍」，解讀提示詞數據並把對應的數據在雜訊上收斂，呈現出符合提示的整體印象，但細節亂成一坨糨糊。所以 DreamStudio 網站可以呈現室外活動的「氛圍」、可以呈現怪獸現身的「氛圍」，但我惡意要求 AI 兩種一起呈現，AI 就只能產怪圖然後被我當笑柄啊，

看看提示詞使用「賽博龐克街道」、「降雨」、「行走的武士」，生成的畫面不就顯得和諧、充滿氣氛了？顯然 AI 產圖是一款我的問題，該沿用過往大家都在畫，所以 AI 學習資源特別多的主題去產圖，才能產出同樣精美的 AI 圖片，在人工智慧與自媒體風潮興盛的時代，特立獨行不只難受 TA 青睞，連 AI 大模型也接受不能啊~

我就是在這個網站上發現，當時的 AI 生成寫實場景總有難以忽視的缺陷，人類構築的建築物往往由直線或幾何構成、條理分明；人工智慧生成的直線必定歪、細節必定出現融合，導致 AI 生成背景一眼望去明顯古怪。但這類缺陷應用於生成破壞、受損的殘骸類場景，卻往往帶有奇效。或許這段經驗影響了我初期嘗試 AI 生成的方向。