難道得重新蓋圖書館?【2022/10~11】

更新於 2024/12/03發佈於 2024/12/03閱讀時間約 4 分鐘

連我這種對技術不熱衷的擦鞋童，都對 AI 能做什麼感到激昂，

就知道當時技術發展多火熱了。

尚且無須擔心股市崩盤或技術泡沫，那段時間更像是時代的浪潮、人的夢想，

延續二十世紀以來世代傳承的人工智慧發展意志，衝擊生成式 AI 根本難以實用的限制。

在我為跳脫 75 token 雀躍，嘗試加入各種外觀敘述來生成貼近特定角色形象的人物時，網友也在尋求約束隨機性的方法。既然 AI 已能生成逼真圖像，問題不在於「能不能做」而是「怎麼做到」，SD 好像認得霍格華茲的艾瑪華森，卻不曉得新月魔法學校的亞可，所以必須改變圖像生成的基底──也就是模型。

但訓練模型絕不是常人能做的事，Stable Diffusion 在亞馬遜雲端運算服務上用了 256 個 NVIDIA A100 GPU、花費 15 萬個 GPU 小時訓練，成本高達 60 萬美元。而且訓練出來幾 GB 的模型，就為了生成某個固定的東西或畫風?

vanitas vanitatum...et omnia vanitas.

為了去巷口小吃攤買宵夜，重新發明汽車是毫無意義的。在 2022 年 10 月陸續有新的方法被開發，讓人們越來越能引導 AI 生成需要的事物。

如果說模型的工作，是透過我們的提示，逐步將一張填滿隨機雜訊的圖像逐步替換為符合提示的圖像。好比人們求知若渴前往圖書館，知識是形而上的，我們無法一覽全貌，因此需要利用手上書單尋找書籍，借回所有書籍、拼湊這個主題的知識框架。即便我們造訪同一家圖書館、握有同一張書單，但知識是抽象的，同樣流程走下去，最後每個人對主題知識的理解仍然不同，就像 AI 生成圖像，太多變數影響最後出圖結果了。

尤其經過兩個月嘗試，人們發現 SD 這家圖書館的館藏有極限。

該怎麼辦呢?

發起募款、蓋樓、徵才、購書，重新打造一座圖書館?

那是從頭訓練模型

調整圖書館館藏書籍，甚至讓不同圖書館間館藏交流?

那是微調、合併模型，例如Dreambooth

只需要這種概念，所以把這一本書加入館藏就好了吧?

那是嵌入/文本倒置(embedding/Textual Inversion)

調整挑書過程，讓館藏清冊接近書單項目以精準找書?

那是超網絡(Hypernetwork)

這段時間老外瘋狂將新技術套用在自己身上，先訓練出能生成自己大頭照的微調模型，再搭配網路上分享的許多畫風微調，皮克斯 3D 角色設計似乎永不退流行，在 Bing 推出 DALL·E 3 的一年前，已經出現過把各種主題用皮克斯動畫風格呈現的熱潮了。

Stability AI 恰好在這個技術爆發的月份推出 Stable Diffusion v1.5 版本，該版本也乘上時代的浪潮，湧現大量以 1.5 版為基底練出來的各種圖像生成資源，導致未來即使功能更強大的 SD XL 推出，1.5 版依舊能在本機圖像生成上與其分庭抗禮，因為靠著網路上海量套件產出品質更高的圖片，總比花錢買更好的設備不心疼啊~

又沒有商業需求，我絕對不打算在 AI 圖像生成這種玩具上花錢 !

我碎碎唸著，繼續測試下一套提示詞。

Bsh的沙龍AI越快，這裡則慢AI越快，這裡則慢

Bsh的沙龍

3會員

47內容數