是不是你以前下載的那些模型,現在都可以丟掉了?🙂
又到了插播新聞的時候啦。
八月份出現了一個討論度非常高的新玩具,由幾位前 Stability AI 團隊成員所成立的新公司 Black Forest Labs.,發布了全新系列模型—— Flux.1
。(點名字進 BFL 首頁)
今天我們來一起看看,Flux 這個新玩具到底有什麼特別的。
如果你還沒有聽過 Flux(雖然我覺得不太可能🤔)或者還不太確定它到底是什麼,那麼等一下我會從頭來介紹它。
如果你對它已經有了一個基本的理解,我的文章都有分段章節,你可以往下拉,去看看要怎麼上手使用。
這次主要是給 Flux 一個 once-over,講得會簡單一點,如果你對我的內容感興趣,歡迎點讚訂閱 YT 頻道開啟小鈴鐺,加入我的 Vocus 沙龍,下次有新文章就不會錯過了。
剛剛提到過,推出 Flux.1 系列模型的 Black Forest Labs 團隊裡面,大多數成員都是來自 Stability AI,這間公司就是我們熟知的開發了 Stable Diffusion 系列模型的公司,而 Black Forest Labs 的核心成員,就是當初開發了 SD 1.5、SDXL、以及 SD3 的主要團隊成員。
有在關注的人應該知道,在 SD3 公布之後沒多久,也就是前陣子吧,Stability 有蠻多團隊成員出走,Black Forest Labs 的成員應該也就是在那時候離開了 Stability AI。
所以,有一個說法是這樣的,你可以聽聽看,現在呈現在我們眼前的 Flux.1 很有可能就是一個 SD3 的變體。
他們這次一口氣推出了 Flux.1 [pro]、Flux.1 [dev]、Flux.1 [schnell] 三個模型。
[pro]
是具備最強能力的完整版,但它目前沒有開源。[dev]
是從 [pro] 蒸餾出來的模型,它不能商用,但是是開源的。[schnell]
則是可以商用的高速模型,同樣從 [pro] 蒸餾出來,schnell 這個詞的意思就是快速。
按照開發團隊所說的:
"hybrid architecture of multimodal and parallel diffusion transformer blocks and scaled to 12B parameters"
它是一個混合架構的多模態、平行 DiT (diffusion transformer) 算法、並且有著十二億參數的模型。
用人類的語言來講,就是結合了目前最好的算法和技術來架構出的,同時具備了高理解和高品質能力的圖像生成模型。
再說得簡單一點,就是這個模型超屌。
那屌不屌我說了也不算,有時候光看數據也不算,還是要你自己感受過後再來評斷,它是不是你理想的模型。這個後面說哈。
現在我們先繼續來看,它的開發團隊是怎麼介紹它的。
在它的展示頁面,可以看到 Flux 在不同風格上的生成結果,點開除了能查看圖像細節,還可以看到他們是用什麼樣的提示詞生成的。
寫實效果是真的相當可怕,像這樣的圖,乍一看 AI 感確實是挺低了,已經開始脫離所謂一眼 AI 的狀態。
對插畫和奇幻類型的掌握也稱得上不錯了,細節足夠,展現出很好的提示詞服從,但畫風就……偏普吧。
不過 Civitai 上有很多以 Flux 做為基底訓練的 LoRA,目前對應的 ControlNet 也在逐步開發釋出,所以實用上,畫風這點並不難彌補。未來也可以期待由 Flux 作為底模所訓練的大模型。
開發團隊表示,Flux 系列模型呢,在圖像的細節、複雜度和風格多樣性上都定義了全新的技術高度,並且同時有著非常高的提示一致性,也就是它非常能夠按照你給的提示詞來構成畫面。
你說左邊就左邊,你說右邊就右邊。
從展示頁面的範例就能看得出來,在提示詞這方面,誠如開發團隊所聲稱的,是有很高還原度或說忠誠度的。
以前我常會跟人說,寫 prompt 的時候不要用敘述的方式去寫,你跟 AI 說這個人和另一個人,或者左邊是什麼右邊是什麼,是沒有意義的。
因為對 AI 來說它根本就聽不懂,也分不出來區別。
但是,圖像模型發展到了這裡,確實必須承認,現在它聽得懂了。
就算不能說對自然語言的理解達到 100%,說有個 6-70% 也不過份。
剩下這 30% 不單只是理解語言的問題,還有模型本身的資料量受限的部分。所以 Flux 已經算是表現得最好的模型了。
這是開發團隊提供的評分比較量表,可以看到 Flux.1 的表現已經遠遠的超過我們現在普遍應用的 SDXL 系列了,比 DALL-E 3 和 Midjourney V6 也強了不少。看上去非常驚人對吧。
下面這張圖又更詳細的分類了五項能力值,左邊是包含了跟剛剛那張一樣的競品,右邊是 Flux [schnell] 和 SD3、SDXL-Lightning 之間的對比。
可以看到在評分上 Flux [pro] 幾乎是全方位屌打其他家,只在文字排版能力上,略為輸給系出 Google Brain 的 Ideogram。
Prompt :
a web design draft for a cozy coffee shop that features a homepage with a hero section titled "Welcome to Brew Haven" and the subtitle "Where Every Cup Tells a Story," set against a full-width image slider showcasing the café's ambiance, artisan coffee, and pastries. Include a "Discover Our Menu" call-to-action button. Add an "About Us" section detailing the café's story and passion for coffee, highlights of specialty brews and signature pastries, customer testimonials, and a section for latest events and special offers.
不得不說 Ideogram 2.0 的文字排版表現力是真的很可怕,如果你是設計師,平常工作內容是關於平面廣告、網頁設計這類型的,真的可以考慮去試用看看 Ideogram。
🎉 GoingBus 串流媒體合租平台 🎉
用 AI 輔助工作,省下來的時間當然要用來看片爽爽!
和世界各地的用戶一起分攤訂閱費,用最低價格享受 Netflix、Disney+ 等熱門串流服務,還有 GPT-4!立即訂閱 GoingBus,輕鬆合租,一起省錢!
✨首購輸入優惠碼:windbro
,再享九折優惠!✨
GoingBus首頁:https://goingbus.com?s=Huk4FaoU
基本的介紹到這邊差不多了,接下來,建議你手邊要有電腦,跟我一起來看看這個 Flux 要怎麼上手使用吧。
除了可以本地安裝之外,也有線上免費的體驗版本。
目前 Flux 已經有大神製作了更輕量的 fp8 版本,如果你的電腦記憶體 (RAM) 超過 24GB,可以下載完整版的 Flux [dev] 或 [schnell],如果沒有的話,可以選擇下載 fp8 的版本。 實際上的生成品質降低並不多,但資源消耗差了一半。
📢剪片的時候,已經有大神製作了更小的超輕量版 NF4 版本 Flux.1,適合 RAM 和 VRAM 都很小的朋友,也許我的電腦也跑得動,不過這個只能下次再嘗試了。
📢NF4 版的模型下載位置【here】。
基本上,其實我的電腦是跑不動的🥲,大多數一般中上的電腦配置,跑一張圖也會要非常久,但我還是會帶各位硬體設備足夠好的朋友,看一下怎麼進行本地配置。
確認好你自己的設備環境
之後,就可以開始下載必要的模型。
直接從 Comfy 提供的 Flux 範例說明頁面,就可以找到下載安裝的指示以及連結,你可以先點開上面這個頁面,然後跟著我一步一步來進行安裝。
首先你需要下載對應的 Clip
和 vae
。(使用完整版才需要下載)
如果你的記憶體 (RAM) 夠大,超過 32GB,可以下載 fp16
版本的 Clip。
那如果你是大於 24GB 但沒有超過 32GB 的話,可以下載 fp8
版本的 Clip。
和這個 Clip_l
,這個是一定要載的。
把 Clip 放到 Comfy 的 models/clip/
資料夾裡面,這個位置是沒有寫在 model_path 文件裡面的,所以要直接放進去 Comfy 自己的資料夾。
vae 的話就放 vae 資料夾,如果你導過路徑,就放去對應的位置裡面。
接下來你如果要下載完整版模型,[dev] 和 [schnell] 點這個 here 會連到 Black Forest Labs 的對應 HuggingFace 下載位置,download 到——注意,Flux 的完整版模型,需要放到 models/unet
資料夾裡面。
往下滾一點就會找到輕量版的下載網址,同樣是點 here,但輕量版就是放到你平常放大模型的位置。
順便,把這兩張圖片載下來,裡面包含了 Comfy 為你提供的範例 workflow。
在等待下載的同時,請各位過去已經安裝好了 Comfy,但最近都沒有更新過的朋友,先去更新一下你的 ComfyUI。
一般 git clone 安裝的人,一樣 cmd 叫出來 git pull 一下就可以。
使用打包版本的可以重新下載一次,或是點 update_comfyui_and_python_dependencies.bat 這個檔案,跑一下更新。
不推薦使用 Manager 的 update 按鈕來更新,有機率會更新不完全。
最近 Comfy 的前端,也就是我們平常使用的介面,有了一些風格上的改動,最明顯的是以往我們使用的搜尋框,還有 Manager 的 node list。
下次再單獨來說一下這些改動部分。
目前 Flux 的完整版,需要使用獨立的特殊節點來生成,直接拖範例圖片讀取工作流程,就會給你全部擺好。
如果你想自己架構的話,這些 node 分散在很多不一樣的地方,你可以透過新版搜尋框,來找到他們各自在 add node 選單裡面的位置,我這邊就不一個一個展開來講了。
輕量版在 comfy 提供的範例裡面,使用的是 (類似於) default 工作流程,如果你想用完整版的流程來跑輕量版,當然也可以,但你的輕量版模型就必須要放到 models/unet
資料夾,不然它這個方塊是讀不到的。
那今天如果你的電腦,跟我一樣跑不動本地安裝的任何版本,Flux 在 HuggingFace 上有基礎的試用空間,人多的時候可能會很慢,但這邊沒有限制額度的問題。
也有跟兩家線上 AI 算圖平台合作推出了試用,一個是 Replicate 一個是 fal.ai,出圖的速度非常快,只是這兩個平台都屬於額度並不高的免費試用。
最近又新增了一些其他試用平台,你可以從 Black Forest Lads 首頁往下拉,在每個模型旁邊找到各種不同試用平台的連結。
其中有兩個沒有顯示在上面,一個叫 xAI,就是推特旗下的聊天 AI。
另一個是之前我們有介紹過的 KREA.ai,KREA 每天都有少量的免費額度,不過目前看起來只有提供 [schnell] 模型。
最後,還有一個可以說是平替版的存在,也是我這個頻道上主要介紹的另一家 AI 圖像生成平台,Leonardo.Ai 上最新的 Phoenix 模型。
我有稍微跑了幾輪測試對比,展示給各位參考一下。
事實證明,弓箭果然還是很難靠純 prompt 生成🤪
這是他們自己開發訓練的模型,同樣對提示詞有著高度理解和忠誠能力,還能夠在生成後繼續對提示詞作敘述性的微調。
如果你不知道 Leonardo.Ai 是什麼,我的沙龍裡面有一些 Leo 的教學,免費用戶每天都有 150 的生圖代幣,在官方 DC 參與挑戰比賽,還有機會拿到更多免費代幣。
目前也有支持全中文操作環境的中國版 Leo,相關影片你可以在我 B 站的同名頻道裡找到。 中國版 Leo 同樣每天有免費的 150 代幣,以及可以贏得額外 1000 代幣的主題挑戰。
整體看下來我會說 Flux 確實是很強,特別是在把文字放進畫面這件事情上,可以說是目前做得最穩定的。雖然我還是不太習慣用敘述句來寫 prompt,但使用自然語言提示詞這件事,目前確實逐漸在成為主流。
看完這篇文章之後,你覺得 Flux.1 這個新玩具怎麼樣?
它會打敗目前市佔率第一的 SD 系列模型,成為之後各大模型製作者愛用的底模嗎?
它真的有比 MJv6 的效果更好嗎?
歡迎在底下留言告訴我你的想法,把文章分享給你對 AI 算圖感興趣的朋友吧!
感謝各位收看,我們下次見,掰掰。