機裡機外,prompt獨尊【2022/10/2~10/3】

機裡機外,prompt獨尊【2022/10/2~10/3】

更新於 發佈於 閱讀時間約 4 分鐘

安裝 SD 後的一週,當我有空嘗試時,都在尋找跑更順的辦法。反正 Reddit 或 Github 上怎麼講就照做、--medvram/--lowvram/--xformers 全加,最後總算控制在一張 512x768 的圖一分多鐘能跑完,而且同時用電腦做自己的事不會卡頓,儘管仍無法一次生成多張。


但 Stable Diffusion 能做的才不止文生圖,不信我將圖片 Hires. fix 兩倍給你看——


OutOfMemoryError: CUDA out of memory.


好吧,在這裡只能文生圖。


都搞了這麼大花樣,我自然懶得再開繪圖工具動筆,所以研究提示詞成了此階段重要(且唯一能做?)的任務。自 ChatGPT 橫空出世後一度成為話題的 prompt engineering 提示工程,在文生圖這裡挺早就在討論了,因為使用者不清楚模型裡學習過什麼資料,誠如人生會背叛你朋友會欺瞞你但數學不會就是不會,模型沒學過的詞彙,提示寫得天花亂墜也生不出來,頂多視描述的細節程度趨近你的敘述。


但如果真寫了一長串,又是別的事了,以後再提。


2022 年 10 月初那幾天,是漫遊於大觀園而未必知其所以然的過程。每當輸入文字敘述、按下啟動圖示,不免想著生成原理與資料來源都不知曉的自己,反覆嘗試摸索出的良好範例,究竟可視為下次溝通的準則,抑或只是無數變量碰巧湊合成的結果?


至少我找到專門生成類似電影海報/雜誌封面風格的提示詞,

如此就能盡情探索各種主題的演繹,其中不乏搞怪的 :

「洛聖都國際機場警匪追逐」

「洛聖都國際機場警匪追逐」


「1920年代柴油龐克風格的中國」

「1920年代柴油龐克風格的中國」


「加州獨立戰爭」

「加州獨立戰爭」


屬於歷史事件的 :

「車諾比核洩漏」

「車諾比核洩漏」

「卡普倫山登山纜車火災事故」

「卡普倫山登山纜車火災事故」

「珍珠港事件」

「珍珠港事件」


沿用其他作品標題 :

「死界魔霧都市•倫敦」

「死界魔霧都市•倫敦」

「仿生人會夢見電子羊嗎?」

「仿生人會夢見電子羊嗎?」


甚至用一句話簡介來生成電影海報 :

「男子試圖劫持空軍一號」(空軍一號)

「男子試圖劫持空軍一號」(空軍一號)

「一群殺手在列車內打架」(子彈列車)

「一群殺手在列車內打架」(子彈列車)


並非每位用戶電腦都裝 4090 顯卡,需短時間等待結果的 AI 圖像生成某方面來說,把手遊抽卡轉蛋核心機制發揮得淋漓盡致。透過輸入敘述/等待輸出賦予使用者參與&期待感、每次都有不同產出形成趣味性,以及偶爾出現真的很不錯的圖片,帶來彷彿抽到 SSR 的高峰經驗,為了抽 AI 生成圖片我好幾天沒空登入手遊了~


但乍看驚奇的構圖,細看下去會發現不僅細節、根本整張圖都要修改,創作者想商用會先 PS 到手軟的程度。以及當圖像尺寸過長過短,演算法在空間內塞入過多資訊/給一個主題過少空間,產生的肢體錯誤與面部恐怖谷效應,把我對 AI 生成逼真人物圖像的興趣與耐性摧殘殆盡,以致如今在 FB 看到底下很多人按讚留言的 AI 生成寫實美女圖,我只會呵呵然後直接滑過去。

引入新技術勢必有條學習曲線,想看養眼圖片,直接追蹤那些高手的粉專並參與互動是最省成本的方式,否則繪圖風格百百種,只專注讓 AI 產出更逼真像照片的圖,是否有點掛一漏萬的可惜?


於是我開始嘗試讓 SD 模型生成二次元風格角色,恐怖谷效應照理不會比真人嚴重。

結果該怎麼形容...........................


衣服細節增加,使畫面占比上衣著增加而臉部縮小,基本加重了五官模糊的情況

衣服細節增加,使畫面占比上衣著增加而臉部縮小,基本加重了五官模糊的情況


......衣著華麗、帶著點朦朧感的濃妝 Cosplay 人偶?


豈不是更嚴重了嗎???


avatar-img
Bsh的沙龍
3會員
47內容數
記錄我在 2022 年 9 月之後使用 AI 生成圖像的嘗試。 這個主題總有一天會沒東西好寫,那就走一步算一步吧...…
留言
avatar-img
留言分享你的想法!
Bsh的沙龍 的其他內容
整個月嘗試了 SD 模型各種線上產圖服務,但線上工具能做的調整不多,必須生成較多圖片、逐步趨近心中想法。時間就是金錢,所以訂閱線上工具就是雙倍砸錢。
已不記得 Stable Diffusion 於 2022/8/22 發布後,我何時看到相關報導,但我確實從那年 9 月開始留意 AI 生成圖像的網路資訊。 先從 WOMBO Dream 開始......
舊筆電出問題了。日益頻繁意外關機,連轉移資料都得碰運氣。我尋思該救的都救差不多,剩下東西在老是自動關機的環境下也搬不了多少,便大刀闊斧重灌,堪用總比沒得用好。
兩年前的今天,我驚奇發現新買的筆電,恰好達到剛發布沒多久的 Stable diffusion 運轉底線, 從此開啟往後一張 512x768 要等一分鐘,聚沙成塔的日子。
整個月嘗試了 SD 模型各種線上產圖服務,但線上工具能做的調整不多,必須生成較多圖片、逐步趨近心中想法。時間就是金錢,所以訂閱線上工具就是雙倍砸錢。
已不記得 Stable Diffusion 於 2022/8/22 發布後,我何時看到相關報導,但我確實從那年 9 月開始留意 AI 生成圖像的網路資訊。 先從 WOMBO Dream 開始......
舊筆電出問題了。日益頻繁意外關機,連轉移資料都得碰運氣。我尋思該救的都救差不多,剩下東西在老是自動關機的環境下也搬不了多少,便大刀闊斧重灌,堪用總比沒得用好。
兩年前的今天,我驚奇發現新買的筆電,恰好達到剛發布沒多久的 Stable diffusion 運轉底線, 從此開啟往後一張 512x768 要等一分鐘,聚沙成塔的日子。
本篇參與的主題活動
在生成式AI與大型語言模型(Large Language Model, LLM)蓬勃發展下,有許多工具可以幫助我們學習與撰寫程式,這篇文章提供了實作範例與一些經驗,分享如何使用ChatGPT(免費的GPT-3.5)協助程式語言的學習,並且完成屬於自己的程式。
前幾個禮拜,AWS 舉行 Startup Day Taiwan。想當然爾,最熱門的主題非生成式 AI (Generative AI) 莫屬。既然 AWS 有現成的工具,身為一名工程師,自然看看無妨,這篇文章算是新手開箱文,會說明如何部署一套基礎模型,並使用 AWS SDK 與其互動。
前言 我在工作中沒有什麼機會接觸到機器學習,學生時期也沒有學習過相關知識。 作為一個業餘小白,我對機器學習非常感興趣。在自學的過程中,我逐漸意識到利用機器學習可以做很多有趣的事情。 因此,我決定嘗試使用 AWS SageMaker JumpStart 來實驗文字生成式繪圖 AI ,以了解機
在生成式AI與大型語言模型(Large Language Model, LLM)蓬勃發展下,有許多工具可以幫助我們學習與撰寫程式,這篇文章提供了實作範例與一些經驗,分享如何使用ChatGPT(免費的GPT-3.5)協助程式語言的學習,並且完成屬於自己的程式。
前幾個禮拜,AWS 舉行 Startup Day Taiwan。想當然爾,最熱門的主題非生成式 AI (Generative AI) 莫屬。既然 AWS 有現成的工具,身為一名工程師,自然看看無妨,這篇文章算是新手開箱文,會說明如何部署一套基礎模型,並使用 AWS SDK 與其互動。
前言 我在工作中沒有什麼機會接觸到機器學習,學生時期也沒有學習過相關知識。 作為一個業餘小白,我對機器學習非常感興趣。在自學的過程中,我逐漸意識到利用機器學習可以做很多有趣的事情。 因此,我決定嘗試使用 AWS SageMaker JumpStart 來實驗文字生成式繪圖 AI ,以了解機