2022 年 10 月是創新與挑戰並存的月份,人們進行天馬行空的測試,投石問路功不唐捐,都是疊起人類邁向 AIGC 領域深處的墊腳石。但不知因為抽卡過程充滿趣味性,還是樂於嘗試的人們多少抱持娛樂態度在玩 AI 圖像生成,某些網上分享的範例讓我滿頭問號。
它們未免太長了吧???
若沒特地設置權重,Stable Diffusion 會依提示先後順序安排生成的圖像,調整前面幾個提示詞,可能大幅更動整體構圖與組成。如果單就這個原理推論,提示詞自然越精煉越好,而且使用者最好先對畫面布局/重點元素有基本想法。
然而或許是被那張超長詠唱梗圖影響,AI 生成彷彿也是力大磚飛,圖片不夠完美就 4K、8K、16K 一併塞進去讓它更美,雖然就算疊到 506K,哇塞華氏 451 度紙張燃點,AI 生成多少像素的圖仍舊看你的長寬設定而不是提示詞寫什麼。那段時間尋找網路分享,嘗試在自己筆電重現,總會看到某些揚揚灑灑好似展現分享者經綸滿腹的提示"文稿",的確生成出繁複細緻的精美圖片,仔細比對內文與圖像卻發現其中諸多部份無相關性。
換言之就是電子汽水啊,會讓 prompt 虛胖,用來抽卡很爽。
但對困於 AI 隨機性一個月的我,prompt 與出圖結果沒啥關聯性,實在不是很爽的事情。我越少參考 Reddit/Stable Diffusion 版上帖子,轉向針對共享資料內的特定「單詞」進行單獨測試,這不會帶來重大變革,偏向盤點現有資源,確認哪些二次元角色只要單獨輸入姓名,Novelai 模型即可生成相應人物形象?從東方project 到 FGO、甚至到哈利波特,如果生成模型會受學習資料限制,那作為一名使用者,想發揮最大功能就得先拿捏模型極限。
為何尋找有效的人物提示詞?倘若輸入一個詞彙就能表現特定角色,表示我不再需要輸入更多描述體態、穿著的提示詞,如此可以提供更多空間進行場景、動作或其他提示詞的測試。因為 Stable Diffusion 默認有效 token 長度只有 75,超出了這個範圍,無論寫得多天花亂墜都派不上用場。
token 是語言模型裡用數字表現語意的最小單位,不完全等於單詞,受 AI 模型認知影響。若發現沒有學習過的單詞,AI 會將其繼續拆分,直到出現自己可以理解的單位。所以寫篇完整文章丟進 SD 當提示詞,可預見介係詞、連接詞之類不重要的部分也會被劃進 token,難怪 AI 生成圖像會與長文提示詞關聯性不大。
闔上筆電時,常埋怨網上 prompt 怎麼往往無視 75 token 限制,難道大多數人真的只是在玩嗎?隨著情況持續,一股感受油然而生 :
不對勁。
有些提示並非文章格式,且內容與生成圖像相關,但長度怎麼看都必然超出 75 token?
不對勁。
若長提示詞趨勢是缺乏概念的普通民眾湧入造成,為何竟少看見專業人士留言引導群眾?
不對勁。
終於無法按捺好奇心,檢視這些提示詞除了文字本身以外的其他係數。發現 A1111 開發的 Stable Diffusion webUI,在更新中移除了長度限制,可以分組處理超出 75 token 的提示,提升人類輸入對於 AI 的引導能力。
小丑竟是我自己,看來該換工具了。